精準預測:如何從巨量雜訊中,看齣重要的訊息?

精準預測:如何從巨量雜訊中,看齣重要的訊息? pdf epub mobi txt 電子書 下載 2025

原文作者: Nate Silver
圖書標籤:
  • 預測
  • 數據分析
  • 決策製定
  • 信息過濾
  • 模式識彆
  • 信號處理
  • 噪音消除
  • 商業智能
  • 機器學習
  • 統計學
想要找書就要到 小特書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

2008年美國總統大選,他成功預測歐巴馬勝選。
50州個彆選舉結果,49州預測正確。
35席參議員的勝選者,則全部猜對。
2012年,他再次成功預測歐巴馬勝選,
這次,50州全部命中。

  他開發的棒球預測係統精準無比,
  被知名棒球評論媒體收購。
  他個人更曾運用統計預測的專纔,
  在德州撲剋賭局賺進上韆萬元。

  他是奈特.席佛,
  當代最受矚目的統計與預測鬼纔,
  首次公開精準預測的黃金法則,
  告訴你為什麼有些預測會成功、有些會失敗?

  ★齣版三個月穩居亞馬遜書店銷售總榜前20 名、商業理財類第1名、政治社會科學類第1名
  ★《紐約時報》暢銷書排行榜前10名
  ★榮登亞馬遜書店2012年度「非文學類」第1名
  ★獲選為亞馬遜書店編輯嚴選2012年度商「商業類」最佳書籍
  ★獲選《華爾街日報》2012「十大最佳非文學類好書」
  ★《紐約時報》書評盛贊:「10年來最重要的一本書」
  ★2009年《時代雜誌》將奈特.席佛列入「世界最有影響力的百大名人」
  ★2012年《滾石雜誌》將奈特.席佛譽為「改變遊戲規則的人」

  數據不會說話,是你在為它說話。

  .美國政府長期蒐集許多情報,但為何還是無法預見911恐怖攻擊?
  .2007年房市泡沫爆發前,華爾街的金融專傢們為何看不見崩盤的警訊?

  身處「巨量資料」(big data)時代,照理說我們擁有空前充足的資料,去做各項預測。但各行各業掌握最多資料的專傢與決策者,卻都還是不斷做齣失敗的判斷,這是怎麼迴事?作者奈特.席佛指齣,人的解讀比數字更關鍵,而預測最難的部分在於:人要懂得分辨齣哪些是無意義的雜訊,哪些纔是關鍵的訊號。誤把雜訊當訊號,做齣來的預測,自然不會準確,甚至會造成嚴重的謬誤與損失!

  數據導嚮的預測會成功也會失誤,要求更多數據之際,人更應該自我要求。

  最常齣錯的就是過度自信、被稱為「刺蝟」型的預測者,他們很會歸納、喜歡大原則、很有膽識,雖不斷收到新訊息卻很少修改預測,他們做預測常成為一種「錶演」,模糊瞭追求精準預測的動機。(代錶人物:成為名嘴的專傢、認定自己能翻盤的賭徒。)

  另外一個大傢常犯的錯,是忽略「樣本外」的重大新資訊。假設你從未酒後駕車,肇事紀錄也很低。今晚你喝瞭酒,請預測今天駕車肇事的機率?如果你拿過去的記錄分析預測,那麼你齣事的機率肯定相當低;但是喝酒開車並不在你過去記錄的樣本內。這個預測問題齣在模型錯瞭、忽略樣本外的重大訊息──而這也就是席佛認為,大傢對房市泡沫以及雷曼兄弟垮颱,無法精準預測的主因。

  在本書中,席佛針對政治選情、球賽結果與球員價值的評估、金融風暴、氣象、地震、撲剋賭局、西洋棋賽、股市投資等跨領域的預測難題,做瞭精闢的個案分析。雖然領域迥異,但預測要精準,背後的原則與邏輯卻都是一樣的。在一個個精彩的故事中,即使沒有統計背景的讀者,也能一點一滴拼湊、建立預測的基本功,並且可以練習把這些原則與技巧,運用在自己的專業領域上。(甚至可以用來預測伴侶外遇的機率:詳見第8章)

  ◎席佛在書中不斷提醒預測者:

  .預設立場或過度自信,對預測來說,是非常可怕的事。
  .預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,纔能做齣有利的決策。
  .做預測時,最怕一看見「有相關」就解釋成「因果關係」。(冰淇淋 vs. 森林大火)
  .預測時不能忽略「誤差」,並要勇於承認有「不確定性」。 不然你會過度解釋,變成不精準的預測。
  .根據預測齣來的機率,做瞭最有利的選擇,即使最後結果不好,仍然是好預測。
  .在很多情境中,不是一定要追求終極完美的預測,隻要預測比競爭對手好,你就贏瞭。
  .當大傢不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走。
  .有新的重大資訊進來時,能保持客觀,隨時更新的預測,纔有可能是精準的預測。

  ◎書中也有許多發人深省的預測思考訓練:

  【情境1】在股市裏,為什麼贏的人反而輸瞭?
  現在舉辦一場拍賣會,拍賣一個裝有零錢的罐子,大傢去猜測裏麵有多少錢,並決定你願意用多少錢去標這一罐錢。齣價最高的,可以把罐子帶走。

  這是經濟學裏一個常見的實驗,實驗的結果,往往都是這位贏傢所齣的錢,大過罐子裏的錢。沒贏就算瞭,贏瞭反而賠錢,這就是所謂的「贏傢的詛咒」。這件事的問題齣在,贏的那個人,做齣瞭很糟糕的預測。很多時候,是預測者過度自信瞭。

  這個實驗,跟股市的特性是一樣的。往往當許多投資人都「感覺現在是投資的好時機」時,同時期股價都會飆高。雖然這明明跟股票應該買低賣高的邏輯背道而馳,但是人總是會在這些時候特彆樂觀,大膽搶進。所以這些投資人,如果在股市裏失利瞭,都是因為他們誤將樂觀氣氛這個雜訊,當成可以搶進的訊息,做齣瞭錯誤的預測的關係。

  【情境2】為何九一一攻擊時,第二棟大樓被撞不用太驚訝?
  根據貝氏定理,做預測時,事前某件事的發生機率有多高,會很大程度影響後來的發生機率。

  九一一恐怖攻擊那天早上,大多數美國人都會認為恐怖分子用飛機撞進曼哈頓高樓的機率趨近於零。那是第一架飛機還沒撞進大樓前的數據。等到第一架飛機事故發生之後,第二棟樓被攻擊的可能性就無庸置疑瞭。

  根據貝氏定理的公式計算,第一架飛機事故前,美國高樓被恐怖攻擊的可能性根據曆史紀錄可是兩萬分之一,或者說0.005%。第一架飛機事故發生後,美國被恐怖攻擊的機率當下被改寫,提高到瞭38%。這時,當我們再預估第二架飛機撞上高樓發生的機率時,運用貝氏定理的公式計算之後,整體機率陡增到99.99%。(貝氏定理用一行簡單的公式就能算齣這個機率,詳見第8章)

  然而,一般人「憑感覺」的預測卻是:在艷陽高照的紐約,發生一次意願已經夠不可能瞭,第二次幾乎是真的完全不可能!但使用貝氏定理,卻能輕鬆預測第二起事故的發生。這就是為什麼我們在做預測時,不能憑「感覺」,而要信賴客觀工具的原因。

  【情境3】氣象預報不準確,能不能怪罪預報員?
  依照基本原則來看,所有的預測,顯示的結果應該都是機率,而且一定會有不確定性。氣象的預測,也不例外。

  美國國傢氣象局經過長年來的努力,所取得的氣象資料以及他們的預測,準確率已經大有進展。然而,為何大傢仍覺得氣象預報不準?

  這是因為商業氣象頻道,為瞭顧客服務的經濟動機,有時會在資料的呈現上做些操弄。比如,當他們說降雨機率20%時,有時其實隻有5%。因為民眾對於這種幫助提高警覺的「假警報」不介意。相對的,若他們預期不會下雨時卻下雨瞭,大傢就會咒罵氣象頻道毀瞭他們的野餐。而且,氣象預報時,更無法呈現齣「不確定性」,誠實展現齣預測中的不確定或者誤差,也會有損預報的權威感。

  在這樣的情況下,並不是預測技術無法精準,而是氣象頻道實在沒有砥礪自己追求預報精準的動機。然而,這是個惡性循環。結果就是當真的發生卡崔娜這樣的颶風時,很多已經把氣象預報當成「狼來瞭」的民眾,就可能會喪失性命。

  作者認為,一個預測的人,職責就是應該要盡力做齣精準的預測與預報。這一點,氣象的預報人員,沒有做到。雖然本來也許有時是齣於好意。

作者簡介

奈特.席佛 (Nate Silver)

  他精通統計學,是美國當代知名的統計與預測鬼纔。他從小就對數字與思考展現興趣與天分,六歲便開始預測棒球賽事。高中時代曾拿過密西根州辯論冠軍,後來進入芝加哥大學主修經濟學,並在大三前往倫敦政經學院研修一年。大學畢業後,進入安侯建業事務所(KPMG)擔任顧問。利用工作之餘,研發齣一套創新的棒球賽事預測係統PECOTA,因為精準至極,甚至吸引棒球界聖經 Baseball Prospectus 於2003年嚮他收購。席佛也將他統計與預測的天賦應用於德州撲剋,曾經短期內就讓他贏得上韆萬元財富。

  他在2008年美國總統大選之前成立瞭「五三八」網站,發錶他的選情預測,獲得廣泛注意,隨後他在這個網站公布預測,成功預測歐巴馬勝選,而且是在50州的個彆選舉結果中,49州預測正確,35名參議員選舉更完全命中。2012年的總統大選,他再度成功預測歐巴馬勝選,這次50州全部命中。2009年《時代雜誌》並將他列入「世界最有影響力的百大名人」。許多人對於他的統計模型與精準預測的技術都十分摺服與好奇,本書是他首度公開自己的預測祕訣,以及他對各領域預測的研究與思考。

譯者簡介

蘇子堯

  颱灣師大翻譯研究所碩士,颱灣師大教育心理與輔導係學士,曾任國中教師、組長、主任。譯有《焦點解決教育--一個更快樂的學校》、《愛我,就不要控製我》與《南瓜計畫》等書。

著者信息

圖書目錄

前言
1. 慘烈的預測失誤
2. 你比電視名嘴還聰明嗎?
3. 我在乎的隻有輸贏
4. 多年來你一直告訴我們雨是綠的
5. 拚命找訊號
6. 要怎麼淹死在一公尺深的水裏
7. 模型的角色
8. 錯誤越來、越來越少
9. 對機器大發脾氣
10. 撲剋泡沫
11. 要是你贏不瞭他們
12. 有著健康懷疑態度的氣氛
13. 你不知道的東西可能會傷害你結論

圖書序言

推薦序1

巨量資料不是萬靈丹,預測的模型更關鍵

  數韆年前,古埃及人發現,尼羅河洪水抵達開羅的前一天,天狼星會與太陽同時從地平綫升起;然而在地球的另一邊,「神農氏作蠟祭,以赭鞭鞭草木,嘗百草,始有醫藥。」看似無關的兩個人類古文明的演進,其實是一體兩麵,都是在透過各種方式蒐集資料、分析資料,並且找齣規律以作為日後決策使用。可以說人類的文明就是透過「分析與預測」一點一滴纍積的。

  隨著人類的世界越來越復雜,分析預測必須透過更有效率的方式執行,也因此資料採礦與巨量資料變成現代顯學。本書有趣的地方在於,它並非一味地神話預測技術的無所不能,反倒是透過一連串的實例(金融海嘯、美國總統大選、恐怖攻擊……),來證明現代人類對於這世界預測模型的假設是多麼脆弱與簡化。但這並不是對預測技術的反動,反而是從過去案例中反省,告誡我們資料科學的發展除瞭要能協助人們從巨量資料中找齣規則外,更重要的是要能夠讓人類辨彆規則與雜訊間的差異,以及能夠評估模型失準時的風險。

  若是說人類在預測的技術尚不夠純熟,這是不公平的,更多時候,是人類不願相信預測齣來的結果,或者明知道預測的事件即將發生,但是卻恣意反其道而行(或是往對自己有利的方嚮進行)。然而「預測」已不僅是少數分析者個人的工作,而是一種集體的行為,決定瞭人類世界如何被推動、如何分配資源。至此,「預測力」儼然成為一種全新的資訊不對稱的知識暴力。

  您也許不是一位資料科學傢,看完本書也未必能讓您從這種「預測」的知識暴力種解放齣來,但希望您能如作者所期許的:「平靜接受我們不能預測的事,勇敢預測我們能預測的事,睿智看齣差異何在」。

尹相誌
(本文作者為亞洲資採、亞洲決策資訊 技術長)

推薦序2

人類始終在追求對未來的精準預測

  丹麥物理學傢尼爾斯.波耳(Niels Bohr)曾說:「預測很難,尤其對於未來」。在我教授統計學的過程當中,常常跟同學討論到學習統計學的目的為何?統計學的精髓在於如何「以管窺天」,利用樣本的資料來做分析,萃取齣有用的資訊,做齣「精準的預測」,而《精準預測》這本書正是告訴我們如何利用簡單的數學運算達成目的。實際上,預測對我們的生活而言不可或缺。例如:樂透號碼的選擇、決定投資股票的標的,或職業生涯規畫等,都是我們對未來的一種預測。由此可見,人類真正目的其實在於得到「精準預測」的結果。

  拜科技發達之賜,我們現在。龐大的數據固然提供我們強大的資料作為預測依據,然而數據不會說話,是資料分析師、統計學傢,以及各種統計軟體在為它說話,也就是大傢常提到的資料採礦(Data Mining, DM)。學者佛羅利(William Frawley)等人認為,資料採礦是從資料庫中挖掘齣不明確、前所未知以及潛在有用的資訊過程。並從資料中提取齣隱含過去未知且有價值的潛在訊息。因此透過資料採礦技術,從巨量資料庫中挖掘齣「黃金」(即有用的資訊與知識)做齣預測,支援企業決策分析,提升企業的競爭優勢。但以數據為導嚮的預測會成功也會失誤。本書作者認為預測最難的部分在於:從巨量資料中分辨雜訊和真正的信號。在書中作者提到,人們通常隻選擇聽見對自己有利的數據,錯把雜訊當成信號,因而做齣錯誤的判斷,這就是為什麼有些預測會失敗,而有些預測卻能與結果非常相近的主要原因。如果我們能學會分辨雜訊,準確判斷齣數據中的訊號,我們仍有機會能成功預測,如同作者在二○○八年美國總統大選,成功預測五十州當中四十九州的總統勝選者,及三十五席參議員的勝選者。

  在瞭解問題與造成錯誤的原因之後,知道如何解決該問題的方法,纔是「精準預測」之關鍵所在。若隻是分析問題成因卻未提齣解決之道,也將使其淪為空談。本書最大的特色在於,作者將內容分成兩部分:前麵七章在判斷預測的問題,後麵六章在探討與運用貝氏定理的解決之道。讀者可以據此訓練自己分辨雜訊和真正訊號的能力,從巨量雜訊中看齣重要的訊號,不論讀者涉略何種領域(自然科學、社會科學、學術研究、企業或是行政部門等),相信透過這本書都能使預測的能力更為「精準」,從巨量資料中取齣「黃金」。

吳迪     
(本文作者為統計學補教名師)

推薦序3

揭開「預測」的神祕麵紗

  在紐約大學史騰商學院攻讀MBA(企管碩士學位)時,我的統計學教授送瞭一句我永生難忘的話,他說:「無論統計的結果如何,如果你沒辦法找到它背後的道理,那就代錶這次的分析齣瞭問題。」

  換句話說,統計是一種用來印證道理──也就是事物間因果關係──的工具。當事物之間有某種因果時,統計可以協助你發現並且驗證這樣的關係,進一步預測這個因果再次發生的機率。相反的,如果事物之間缺乏真實的因果,則無論統計之後得到任何結論,也隻是數學上的巧閤罷瞭。

  讀奈特.席佛的這本《精準預測》,讓我不斷想起瞭教授的話。

  雖然一般公認,席佛是數據分析與統計模型的專傢,但在這本書裏他一路從統計原理講到金融海嘯、棒球、氣象、地震、失業率、傳染性疾病、運動賭盤、西洋棋、德州撲剋、市場原理乃至於全球暖化,每一個領域除瞭關鍵的資料與圖錶,他幾乎都能夠明白闡述「為什麼」這些資料有因果意義,甚至常常進一步去分析造成這些因果背後的人性。

  用奈特自己的方式形容,他在這本跨越多個時空,厚重且實在的分析報告大匯整裏,充分展現瞭他的「狼性」,也就是跨學科、大膽找尋新方法、自我批判,並且以實徵為主的思考與工作方式 (請參照第二章)。

  至於為什麼我們該花時間學習奈特的工作方式,其中一個很重要的因素是網路與各式連網裝置──包括你手中的智慧手機與平闆電腦──的普及,正帶來前所未有的數據供給成長──僅僅在過去兩年內,我們所産生的資料量就佔據瞭人類史上所有資料量的 90%。

  因此,就像奈特說的一樣,當你需要預測某個事件未來再次發生的機率,尤其當這件事會攸關國傢安全、民眾健康、經濟發展,或是企業存亡等關鍵狀況時,從茫茫資料海中抽絲剝繭,找到那些關鍵指標的能力,將顯得越來越重要。

  在這樣的一個時代,奈特.席佛這本《精準預測》更顯得重要,這裏麵充滿著現代知識工作者必須瞭解的種種數據分析觀念與實務技巧,非常值得每個人用心體會、學習,並且實踐。

林之晨
(本文作者為appWorks 之初創投閤夥人)

推薦序4

從奈特.席佛看新公民媒體崛起

  奈特.席佛是一個統計學傢、數學傢,也是一位知名部落客,畢業於芝加哥大學經濟係。畢業後在會計師事務所安侯建業(KPMG)服務,之後創辦瞭 PECOTA係統,用統計數字追蹤大聯盟棒球員錶現。隨後他的興趣轉嚮政治,二○○七年他創辦瞭FiveThirthyEight.com, 準確地預測瞭二○○八年的美國大選,二○○九年他更被《時代》雜誌選為最有影響力百大人物之一。二○一二年奈特再度準確地預測瞭總統大選結果。他善長分析海量數據,並且準確預估齣選舉的結果。他經營的FiveThirtyEight.com網站在選舉的時候擁有全美數一數二的流量,硬是超越大型新聞入口網站CNN、福斯新聞和民調機構蓋洛普(Gallup)與AC尼爾森(ACNielsen)。他根據自己準備的民調數字,無誤地預測瞭歐巴馬的勝率。這位奉數字為上,不與說客、競選助理、民嘴、公關公司打交道的數學天纔,到底憑藉什麼能力讓所有大型民調機構跌破眼鏡,臣服於下?

  奈特的勝利背後涵義實為廣大。

  第一,它代錶瞭新公民媒體的崛起。過去的政治媒體圈被說客、名嘴、大型民調公司控製,這三個角色形成瞭利害共同體,用種種不透明的方式控製結果。然而,社群媒體 (social media) 的興起讓每一個人都變成瞭媒體,都有發聲管道。當這些個人媒體 (individual media) 能夠準確預測結果時,舊有的勢力即將麵臨挑戰,也在快速崩壞的過程中。這樣的新公民媒體 (new citizen media) 崛起也將不斷衝撞傳統的新聞傳播。   

  這也代錶著,第二,開放數據有助於促進政策透明化。奈特的成功有絕大的因素在於開放數據的運用。過去這些數據取得睏難,讓選舉操作上有機可乘,在社群媒體的年代,開放數據 (open data) 是一項施政透明度 (policy transparency) 的指標。歐巴馬也大力提倡開放政府 (open government) 運動,而開放數據的取得也讓更多個人民調分析師更能閤理的匯整、分析、解讀數據。未來,希望這些開放數據分析能讓議題的討論更趨嚮公評、公正,政策的透明化也將受到更多的監督。

  颱灣長久以來受到媒體民嘴影響,許多議題、政策的討論過於激情、非理性。一般民眾取得資訊也過於片斷、不完整,整個資訊流缺乏一個完整的過濾過程,結果也都不能縱觀全局,常常在討論一個議題,追一個新聞時,不斷爭辯,失去焦點。舊媒體為瞭收視率,製作齣的新聞也僅是最低標準 (lowest common denominator)。然而在這個社群媒體崛起、新公民媒體齣現的年代,奈特的《精準預測》更提供瞭我們在觀察事件的另一種新思維模式。而這樣個人新聞品牌 (individual journalism brand) 正是建立在信任、互動之上,而這也象徵瞭新聞將走到下一個階段。

許毓仁
(本文作者為TEDxTaipei策展人&共同創辦人、TED 亞洲大使)

推薦序5

將海量資料轉化為商業競爭的力量

  全球建立及復製的資料量連年翻倍成長,二○一二年已突破二.八ZB(Zetta Byte,十 的二十一次方,約為二百億張藍光光碟的存量),預計二○二○年將達到四十ZB。倍速成長的動能不僅僅來自網路,還有包含用戶端設備如個人電腦及智慧型手機在內,形形色色的機器設備所産齣的數據。

  「資料淘金」儼然成為一門新顯學, 無論是成熟多元的商業智慧(Business Intelligence),或正蓄勢待發的海量資料(Big Data,或稱巨量資料),都展現瞭強勁的需求成長力道。Gartner調查公司估計,商業智慧軟體的全球巿值在二○一二年達到一百二十五億美元,七.二%的成長率傲視其他IT應用;IDC則預測,海量資料在亞太區(不含日本)的巿場規模將於二○一三年達到六.○三億美元,相對於二○一二年年成長四二.六%。

  本書作者奈特.席佛善長分析海量數據,在二○○八年,他準確預測瞭美國總統歐巴馬的勝選,二○一二年又再度預測成功,讓民嘴、仰賴數據為生的市調公司嘖嘖稱奇,他是怎麼辦到的呢?在分秒必爭的商場競賽之中,什麼事情都需要直接切入核心,纔能贏得市場先機。本書涵蓋金融財經、自然科學、社會科學,以及運動和比賽的實例,從淺顯的案例齣發,讓您去思考預測難題之下一些最基本的問題,該如何將我們的判斷運用到資料上?該如何預見市場的變化?運用過去的經驗當指引,又明白未來將有所不同,兩者之間應該如何調解?

  IDC也分析:海量資料在亞太區快速成長的原因之一,在於區域內的企業力求尋找競爭優勢,海量資料的應用正能投其所好;但要找到閤適的應用方嚮、選擇最佳平颱,以及突破部署障礙,則是最需注意的課題。

  早在海量資料的概念成型且備受矚目之前,微軟就有深厚的海量資料應用經驗,以微軟的Bing搜尋服務為例,要分析超過一百PB(Peta Byte,十的十五次方)的資料,以提供高品質的搜尋結果。因此,更能解決企業對海量資料解決方案的期望。目前多傢知名網路公司,利用微軟的海量資料解決方案來提升服務的品質。Yahoo!每天以每小時超過三十五萬億筆廣告曝光數處理重新整理的速度,藉此改善宣傳活動成效,提升廣告收益。顯然,企業能從大量的資料中,獲得即時商業洞察力,應用在復雜的事件處理和分析,改善業務與流程, 再加上名列全球CIO頭號要務的商業智慧分析,企業的資料淘金熱勢必將持續看漲, 協助企業發掘全新的成長契機與競爭優勢。

  本書適閤所有從事資訊、科學、數據分析的相關工作者,隻要擁有這本武功祕笈,讓您在最短的時間內瞭解預測背後的真相,引領您邁嚮未來。

蔡恩全
(本文作者為颱灣微軟總經理)

推薦序6

用機率思考,纔能避免憑運氣創造

  我在學統計的時候,毫無激情可言,貝式定理更是讓我冷感到極點。

  當時貝式定理對正值青春的我來說,好比三歲的安心亞。我懷疑她以後會很正,但現在實在跟我無關。在思考工具上,貝式定理不大能派得上用場,不是因為這個定理本身沒用,是因為這個定理需要的資料不是那麼充足。但在資訊取得成本越來越低的時代,貝式定理越來越炙手可熱。

  越多的資料,在一定的條件下,越能幫助我們預測,正如邱吉爾說過的:「你越迴顧,就越前瞻。」在邱吉爾的決策邏輯裏,他盡可能地保留所有想像上的可能性。看起來像極瞭使用貝式定理建立預測模型,然後纔依據曆史事實,從最不可能發生的劇本開始刪去(或是給予一個期望值)。邱吉爾並不是以一種「曆史總會重演」的角度來說明迴顧與前瞻的因果邏輯。而是用統計資料鎖定「不會」發生的事,並讓可能發生的事留在既有「統計事實」之外。

  這種「out of sample」(樣本外)的觀念,正是賈伯斯在創新的時候「沒有」說齣的事實。他隻說我們不可能依靠統計來發明新的産品,但更貼近事實的描述,是賈伯斯所創造的産品,是「Out of the Sample」的。在iPhone被創造齣來後,纔有iPhone的統計數據(市場)。

  這裏是統計與創新的交界處。

  一方麵,我越來越懷疑統計與機率會成為我們這個時代的新九九乘法,會變成我們這個時代的基礎教育。但另一方麵,這些跟數據、分析、預測相關的理論與工具,一次一次間接又無可避免地衝擊我們的自由意誌。我們到底是齣於自由意誌做齣的選擇,還是越來越落入自以為在選擇的毫無選擇。韓寒曾經有句名言:「世界上有兩種邏輯,一種是邏輯,一種是中國邏輯。」在這裏,選擇也變成瞭兩種。

  如果《快思慢想》確實地讓我們成為一個心理準備好要理性的思考者,《精準預測》可能讓我們在實務上真的更接近一名理性的思考者。直覺上,我認為我們必須(必須,就是一種毫無選擇)快速提升統計與機率的理解,纔能保有自由選擇的權利。

  奈特.席佛更直接點明:「隻要我們對資訊的理解程度跟不上資訊的成長速度,我們就會麵臨危險。」他直接用危險二字,描述我們正在迎接的世界,大概是因為知識就是力量。如果真的是因為這個力量的重新分配,造成這樣的危險。那麼我們麵臨的危險,可能不隻有一種。

戴季全
(本文作者為Richi裏斯特、TechOrange流綫傳媒創辦人)

圖書試讀

前言

這本書談的是資訊、科技,以及科學的進步。這本書談的是競爭、自由市場,以及思想的演變。這本書談的,是讓我們比任何電腦都還要聰明的東西,也是本探討人為錯誤的書。這本書談的,是我們如何一步步學會掌握客觀世界的知識,而我們為何有時又會倒退。

這本書談的是預測(prediction),也就是上述這一切的交集。這本書研究的是為什麼有些預測可以成功,為什麼有些會失誤。我希望,對於如何規劃我們的未來,我們可以得到多一點的瞭解,比較不會去重蹈覆轍。

「巨量資料」的希望與睏難

現在流行的詞是「巨量資料」(big data)。IBM估計,我們每天會生産兩百五十萬兆位元的資料,有超過之九十的資料是在過去兩年中製造齣來的。

資訊指數性的增長,有時被視為萬靈丹,就如一九七〇年代的電腦一樣。《連綫雜誌》(Wired magazine)的編輯剋裏斯‧安德森(Chris Anderson)在二〇〇八年寫道,光是資料的量就可以免去對理論的需求,甚至連科學方法都不必瞭。

這本書顯然是在擁護科學和科技,而我也認為這是本非常樂觀的書。但這本書的主張是:這些觀點錯得離譜。數字沒辦法為自己講話。是我們在為它們說話。我們賦予它們意義。就如凱撒一樣,我們可能會用對自己有利的方式來解釋資料,讓資料脫離客觀的現實。

以數據為導嚮的預測會成功——也會失誤。如果我們否定自己在這個過程中扮演的角色,失誤的機率就會提高。在我們對資料做更多的要求之前,我們必須先多要求自己。

如果你知道我的背景,我這樣的態度可能會讓人吃驚。我處理資料和統計數據,用這些來成功預測,因而博得名聲。二〇〇三年,我因為厭倦顧問的工作,所以設計瞭一個叫做PECOTA的係統,試圖預測大聯盟球員的統計數據。這個係統有一些創新之處——例如說,係統的預測是用概率的方法,為每位球員標齣一個範圍內的可能結果——我們比較各傢係統的結果,發現我們的係統比對手的係統錶現更好。二〇〇八年,我成立瞭五三八網站(FiveThiryEight),試圖預測即將到來的大選。五十州之中,五三八網站正確預測瞭四十九州的總統大選獲勝者,以及全部三十五席美國參議院議員選舉的贏傢。

大選後,有一些齣版商跟我接觸,他們想找《魔球》(Moneyball)和《蘋果橘子經濟學》(Freakonocomics)這樣的書,從書的成功中獲利,這種書講的是書呆子徵服世界的故事。他們認為這本書走的也是這樣的路綫——研究以數據為導嚮的預測,領域從棒球到財經到國傢安全。

但我為瞭從事我的研究,在四年內和十幾個領域、超過一百位的專傢談過,閱讀數百篇期刊文章和書籍,到處旅行,從拉斯維加斯到哥本哈根,我逐漸明白,巨量資料時代的預測進展並不順遂。在幾個層次上,我一直很幸運:首先,雖然我犯瞭很多我後麵要敘述的錯誤,但我還是獲得瞭成功;而其次,我選對瞭戰場。

例如說,棒球就是個特例。這種運動剛好是種豐富而有意義的例外,而本書就在探討為何會如此——為什麼在《魔球》齣現十年後,統計怪纔現在跟球探閤作無間瞭。

用戶評價

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版權所有