第7部分(第1/4 页)
ers…Lee)曾经提出这样的说法,认为信息饥渴的计算机用户可以点击突出显示的文本,从一个文件跳到另外一个文件。对一位富有远见的计算机专家而言,网络就是链接。
1996年慢慢过去,在此期间,佩奇和布林合作进行下载和分析网络链接的工作。获取数据的过程比佩奇预计的要长,而且他估计他们每放一个网络爬虫程序出去搜集整个网络,计算机科学系就得为此支付2万美元,但是他急于完成这项工作。他想要发现这些自动化的交叉指代的重要性。他的研究目的不但吸引了布林的注意,还吸引了布林的指导教师莫特万尼的注意。因为,这项工作有希望改进网络搜索。布林之所以加入这个项目,一是因为他很希望能够与佩奇一起工作,二是他一向对从大量随机数据中提取信息很感兴趣,而这个项目恰恰与此相关。如果布林想要发挥他数学和编程的优势,还有哪个舞台比互联网更广阔呢?
佩奇建立起了自己的理论模型——可以通过计算指向某个网站的链接的数量来确定这个网站的受欢迎程度。尽管受欢迎程度并不总是同价值相关,不过,他和布林都生长在学术世家,非常重视发表在学术期刊上引用了诸多相关文献的学术研究成果。而对佩奇来讲,在某种意义上,链接就像是文献引用。科学家会引用那些同自己的研究相关的已出版的文献,而这些引用可以帮助学术研究界确定某项研究成果的价值和影响力。“文献引用非常重要,”佩奇说,“事实证明,获得诺贝尔奖的科学家们引用了上万种不同的文献。”他还说,“如果你的成果在相关科学文献中被大量引用,就说明,你的工作非常重要,因为很多人都觉得它值得一提。”
而佩奇得出的结论是,同样的道理也适用于网站。他更进一步取得了概念上的突破:并非所有的链接都具有同样的价值,其中一些比另外一些更重要。佩奇赋予从重要的网站上发出的链接更高的权重。那么,他又如何确定哪些网站更重要呢?很简单,指向哪个网站的链接多,哪个网站就重要。换句话说,如果人气很旺的雅虎主页上有指向某个互联网网站的链接,那么这个网站马上就变得重要一些了。佩奇把自己的姓氏同自己正在处理的这些文件巧妙地结合在一起,为他的链接评级体系起名为“PageRank”(网页序列等级)。
佩奇的另外一位指导老师,斯坦福大学的特里·维诺格拉德(Terry Winograd)教授称,解决网页排序问题的学术出路,最终取决于弄明白通过追踪链接到底可以发现什么。“一开始,拉里的想法是进行随机的网络浏览,就像是在网络中漫无目的地漫步。这套算法(一系列数学方程式)是为普通的网络用户发明的。大部分时候,他们在某个网页上点击一个链接,就会到达网络上的某个目的地。对这个过程的提炼造就了PageRank。”
布林和佩奇相信,把PageRank算法应用于互联网,可以作为他们博士论文的研究方向。1997年初,佩奇打造了一个叫“BackRub”的简单的搜索引擎。这个搜索引擎之所以叫“BackRub”是因为它主要处理反向链接。佩奇一直善于精打细算,他把自己的左手平放在扫描仪上,将自己的手纹转化成了一种黑白的图片,而这就是BackRub网站的标志。布林、佩奇和莫特万尼都为这个正在形成的项目贡献了自己的创意。莫特万尼说,不久,他们就清楚地意识到,这个项目不仅仅是一个继续他们的学术研究的途径。尽管事先并没有想到,不过当这三个人把自己的排序方法应用于互联网的时候,却出其不意地解决了互联网信息搜索的一个关键问题。
txt小说上传分享
独特的PageRank技术(4)
“他们从来没有郑重其事地坐下来,然后说,‘让我们来发明下一个伟大的搜索引擎吧。’他们只是想要解决有趣的问题,又碰巧想到了一些不错的创意,”莫特万尼说,“拉里贡献了一些想法,谢尔盖贡献了一些想法,我也贡献了一些想法,我们都参与了项目的创意。渐渐我们发现自己正在建立一个完整的搜索引擎。”维诺格拉德也同意他们的想法是一天天逐渐发展成熟的,“他们一开始并没有想要成立一家公司,不过他们确实想要创造更优越的搜索方式。”
布林、佩奇和莫特万尼一起建立了一个复杂搜索引擎的雏形,供斯坦福大学内部使用。这个搜索引擎以传统的搜索引擎技术为基础,并引入了PageRank算法,因此,用它在互联网中搜索信息,得到的结果在相关性上比以往的引擎要优越得多。其他引