没有规则的世界

2013-09-29 20:31:08

  在全面掌握搜索技术的基础知识之前,我一直都没能真正理解这个全新的世界。克雷格-西尔弗斯坦利用午餐闲谈时间,自愿为我和几个不懂技术的员工“开班授课”,他把这种交谈叫作“Google7A—面向非专业人员的搜索”。克雷格毕业于斯坦福大学,脸上挂着孩童般的笑容,很有幽默感。他喜欢说自己是Google的第1.5名员工,因为公司正式成立时,他的名字在花名册上的位置位于拉里和谢尔盖之间。克雷格平时也给我们开小灶,不定哪个下午,他会面带笑容,在走廊里假声假气地拖着长音问道:“吃小灶吗?”这时,我们这些人就会从各自的格子间中走出来,去吃他刚从Google的面包机中拿出来的没有营养的无形面包。

  我们集中在乒乓球室中上课,里面是以前放在苏珊车库里的深绿色乒乓球桌。桌上的球网放倒了,也许是前一天开董事会的时候,哪一位风险投资人为了找地方放笔记本电脑而把它放倒的吧。克雷格开始讲课,我们则大快朵颐。

  “一个搜索引擎有3个组成部分。”他开口说道。白板上的题目是“一个查询的来龙去脉”,他在题目下面不断写着要讲的内容。

  “首先,我们得收集网络上的页面信息,可以通过一种称为‘爬取’的进程实现。我们的蜘蛛程序叫作Googlebot,它从一个链接跳到另一个链接,把每个网址及其内容数据汇集起来。爬取过程通常需要一个月左右的时间,一旦完成,我们就有大量资料需要存储到合用的列表中。这个过程叫作建索引。”

  我在笔记本上记下“爬取”和“建索引”两个词,分别框起来,然后用线把两个框连起来,随即变成了一副眼镜的模样,一个蜘蛛从上面吊下,那里应该就是鼻子了。

  克雷格继续说:“我们一旦有了索引,就会利用我们的PageRank算法,根据每个页面的重要性,分配一个页面次序。PageRank算法是Google的秘密调料。”

  “秘密调料?”我们能比其他所有搜索引擎做得好,看来公司创始人很快就要透露底细了,我向前倾了倾身子,准备好好学习。

  “PageRank查看网络上的所有网页,根据指向每个网页的其他链接衡量该网页的价值。来自可靠网站的链接越多,这个网页的PageRank值就越大。这是秘诀的前一半。”

  我在“眼镜”下方记下“PageRank”,在它周围画了个椭圆,看起来有点像是一个滑稽的嘴巴,于是又在上面画了人头,还在旁边加了些头发。

  “另一半就是要断定哪些结果跟我们收到的特定查询的关联程度最高。我们的大多数竞争对手看的都是基本信息,比如某个词在一个页面上出现了多少次。我们看的是查询条目在页面上是怎么使用的。紧接着这个词出现的是什么词?用的是黑体还是其他不同的字体?在指向那些页面的链接中,这个词是怎样出现的?这种链接分析非常重要。在指向一个页面的链接中出现的词叫作链接锚文本。”

  在笔记本上,从那个滑稽嘴巴的一角长出一个链条,直到页面底部,在底下突然出现了一个锚,周围是露着牙齿的游鱼。

  克雷格继续说:“查询匹配的好坏决定我们的搜索质量,由于评价查询是否匹配得很好多少有些主观,因而这不是一个确切的科学问题。如果你搜索输入的是‘jaguar’(美洲豹),你指的是汽车、豹子,还是足球队呢?对类似这样的查询,有时候很难消除歧义。”

  我记下“消除歧义”这个词,自己默念了3遍,以便把它变成我自己的词汇。然后又画了个有点像斑斑点点的狸猫的东西,它正追捕那个铁锚边上的鱼。由于是在水里,我又加了几个水泡。

  “一旦确定了有用网页的显示顺序,就需要把搜索结果反馈给提交查询的用户。这就是‘gwiss’干的事。”克雷格说到“gwiss”的时候,在白板上写下“GWS”,下面注明是“GoogleWebSever”(Google网络服务器)。

  “GWS是一个软件系统,当用户提交查询及反馈搜索结果的时候,实际上都是由它来跟用户交互。我们打算更新Google的用户界面时,就需要推出一套新的GWS系统来实现变化。”

  我想不出GWS是个什么样子,因此在那个人头后面画了些瑞士乳酪。等到克雷格讲完的时候,我对Google的工作方式有了宽泛的理解,此外还在我的收藏中增加了一幅怪异的涂鸦作品,这可是不会跟新同事们分享的东西。

  后来,乌尔斯向我证实,早在拉里和谢尔盖1998年离开斯坦福大学之前,Google就已经在搜索质量方面稳操胜券了,因为链接分析就是互联网上等着点化成金的石头。Google搜索结果的高关联性对早期用户和新闻媒体产生了强大的吸引力,但是背后却隐藏着面临崩溃危险的脆弱基础。乌尔斯告诉我:“我们的排序方法远远胜过AltaVista,但是速度很慢,而且无法稳定可靠地建立索引。”

  如何改进Google在爬取、索引及服务交互方面的效率?正是这一挑战让乌尔斯进入Google。他估计实施改进计划需要?年左右的时间,随后他返回欧洲。“整件事情是个系统性的问题,我对此估计不足,”乌尔斯承认,“我们以前用的是大学里的系统,现在基本上需要重写一遍。”虽然Google对自己掌握的数据做得很好,可是它收集的数据远远不够,而且搜索数据的速度也不够快。

  速度还是规模,只能选一个。当我们爬过的网页越来越多时,索引就会变得更大,PageRank算法需要利用的数据也就更多,这样我们才能产生相关性更好的结果。这一点吸引了更多的用户和研究人员,因而我们的追随者队伍不断壮大。然而,更大的索引需要更多的机器运行更多的处理过程,更多的处理过程需要耗费更多的时间。上网的人都知道,用户增加会对网络提出更多的要求,从而让速度变慢。

  对于Google的未来走向,是要成为一个终端站点,还是要做其他网站的服务提供商,当拉里和谢尔盖不得不面对这个选择时,他们决定两者都要。即便是选择全面扩张,Google的搜索速度也要加快。他们都对自然法则强加在头上的约束限制不屑一顾,于是他们开始寻找同道中人。

本文摘自《Google传》


   Google的企业宗旨“不作恶”是如何来的?为什么拉里和谢尔盖有能力吸引硅谷中首屈一指的风险投资公司支持他们?浏览器工具栏竞争中,微软和Google掀起了秘密决战,最后胜败如何?当微软公司宣称“我们要么买下你们,要么就灭掉你们!”时,Google又是如何逃过一劫?
  这是一部最详细、最全面、最真实地记录一家伟大的互联网公司发展历程的书。在这本书中,作者提到拉里R26;佩奇是个很强势的家伙,他火热的激情要帮助全世界不再浪费时间。拉里喜欢削减一切不必要的开销,不过在成本控制方面,不折不扣地把节俭才智发挥到极致的还是谢尔盖。在意大利米兰,他为了节省50美元,而不愿意选择乘坐出租车。

 承诺与声明

兄弟财经是全球历史最悠久,信誉最好的外汇返佣代理。多年来兄弟财经兢兢业业,稳定发展,获得了全球各地投资者的青睐与信任。历经十余年的积淀,打造了我们在业内良好的品牌信誉。

本文所含内容及观点仅为一般信息,并无任何意图被视为买卖任何货币或差价合约的建议或请求。文中所含内容及观点均可能在不被通知的情况下更改。本文并未考 虑任何特定用户的特定投资目标、财务状况和需求。任何引用历史价格波动或价位水平的信息均基于我们的分析,并不表示或证明此类波动或价位水平有可能在未来 重新发生。本文所载信息之来源虽被认为可靠,但作者不保证它的准确性和完整性,同时作者也不对任何可能因参考本文内容及观点而产生的任何直接或间接的损失承担责任。

外汇和其他产品保证金交易存在高风险,不适合所有投资者。亏损可能超出您的账户注资。增大杠杆意味着增加风险。在决定交易外汇之前,您需仔细考虑您的财务目标、经验水平和风险承受能力。文中所含任何意见、新闻、研究、分析、报价或其他信息等都仅 作与本文所含主题相关的一般类信息.

同时, 兄弟财经不提供任何投资、法律或税务的建议。您需向合适的顾问征询所有关于投资、法律或税务方面的事宜。