圖書序言
科學能從Google那學到什麼?
「科學能從Google那學到什麼?」是2008年美國《連綫》雜誌(WiredMagzine)主編安德森在他的一篇評論文章
(Theendoftheory:Thedatadelugemakesthescientificmethodobsolete,WiredMagazine,06.23.08)結尾時的問句。的確,Google不僅僅是資訊産業界成功的典範,同時還是資料科學領域的先鋒和開拓者。Google的成長史是一部創新和開拓的曆史。
Google的起步是源自於網頁搜索排序的新概念和演算法開發。在Google之前早已經有瞭其他的搜尋引擎,最著名的是Yahoo。但所有這些引擎都沒有解決好對搜尋結果作排序的問題。佩奇和布林的想法是把網路的結構利用起來。事實上,每個網頁都是網路上的一個節點,它們不是孤立的,不同的網頁之間通過超連結聯係在一起。如果一個網頁有很多超連結指嚮它,就說明它具有權威性,應該排在前麵。怎樣給網頁的權威性一個定量的刻劃呢?設想一個醉漢在網路上作隨機遊動,他訪問的最多的網頁就最具有權威性。這樣就可以把網頁排序的問題描述成為一個由網路結構而派生齣來的馬氏鏈的不變測度的問題,也就是一個轉移矩陣的特徵值問題。這就是佩奇關於網頁排序的基本想法。通過這種想法,佩奇和布林大大提高瞭網路搜尋結果的質量。
Google也是第一個將雲端運算由概念變為現實的企業。不言而喻,Google從一開始就需要處理大量的網頁。它最初開發雲端運算的目的是建立一個能把大量的廉價伺服器集閤在一起,以完成大型計算和儲存的功能平颱。這個平颱必須是可擴展、並行的,並且允許其中一些伺服器齣現故障。為瞭達到這一目的,Google開發瞭一係列的新技術和新的資料儲存模式,其中包
括Google文件係統(GoogleFileSystem)、MapReduce等。這些新概念和新技術已成為大數據處理的標準方法。與此同時,Google也建立起瞭麵嚮未來的資料中心和雲端運算平颱。這些基礎設施使得Google在資訊服務産業高居於一個得天獨厚的位置。
Google之所以能做到這些,最根本的一點是它高瞻遠矚的眼光和寬廣的胸懷。Google創始人佩奇和布林認識到,Google的根本利益在於網路能否成為普通大眾生活中必不可少的工具。做好瞭這一點,Google的商業利益就自然而然地來瞭。為瞭做到這一點,Google堅持瞭由Yahoo開創的網路免費的原則。這個原則對網路的普及起到瞭最為關鍵的作用。