图书序言
科学能从Google那学到什么?
「科学能从Google那学到什么?」是2008年美国《连线》杂志(WiredMagzine)主编安德森在他的一篇评论文章
(Theendoftheory:Thedatadelugemakesthescientificmethodobsolete,WiredMagazine,06.23.08)结尾时的问句。的确,Google不仅仅是资讯产业界成功的典范,同时还是资料科学领域的先锋和开拓者。Google的成长史是一部创新和开拓的历史。
Google的起步是源自于网页搜索排序的新概念和演算法开发。在Google之前早已经有了其他的搜寻引擎,最着名的是Yahoo。但所有这些引擎都没有解决好对搜寻结果作排序的问题。佩奇和布林的想法是把网路的结构利用起来。事实上,每个网页都是网路上的一个节点,它们不是孤立的,不同的网页之间通过超连结联系在一起。如果一个网页有很多超连结指向它,就说明它具有权威性,应该排在前面。怎样给网页的权威性一个定量的刻划呢?设想一个醉汉在网路上作随机游动,他访问的最多的网页就最具有权威性。这样就可以把网页排序的问题描述成为一个由网路结构而派生出来的马氏链的不变测度的问题,也就是一个转移矩阵的特征值问题。这就是佩奇关于网页排序的基本想法。通过这种想法,佩奇和布林大大提高了网路搜寻结果的质量。
Google也是第一个将云端运算由概念变为现实的企业。不言而喻,Google从一开始就需要处理大量的网页。它最初开发云端运算的目的是建立一个能把大量的廉价伺服器集合在一起,以完成大型计算和储存的功能平台。这个平台必须是可扩展、并行的,并且允许其中一些伺服器出现故障。为了达到这一目的,Google开发了一系列的新技术和新的资料储存模式,其中包
括Google文件系统(GoogleFileSystem)、MapReduce等。这些新概念和新技术已成为大数据处理的标准方法。与此同时,Google也建立起了面向未来的资料中心和云端运算平台。这些基础设施使得Google在资讯服务产业高居于一个得天独厚的位置。
Google之所以能做到这些,最根本的一点是它高瞻远瞩的眼光和宽广的胸怀。Google创始人佩奇和布林认识到,Google的根本利益在于网路能否成为普通大众生活中必不可少的工具。做好了这一点,Google的商业利益就自然而然地来了。为了做到这一点,Google坚持了由Yahoo开创的网路免费的原则。这个原则对网路的普及起到了最为关键的作用。