【推薦序】數字,和它們的原產地,還有背後的意義
文/劉奕成(Line Biz Plus Corp北亞金融董事總經理)
正準備要搬家,膠膜仍在未開封的新書、已經翻爛的愛書和散亂的書稿,一落落各自蹲踞在客廳地板上。
我隨手拾起一大疊書稿,自在翻閱,最終眼神停在這本書稿上,這彷彿是一本關於數字的書,莫名攫取了我的注意力。我向來就很喜歡有數字的書,2018年初,日本出了一本書,書名叫做《2017年最大的質數》,就是將總共23249425位數的「2^77,232,917-1」這個數字,惡狠狠地印了厚達3.2公分的719頁,因為深具療癒效果,一時洛陽紙貴,我也毫不猶豫買了一本。聽說出版社原本是要把圓周率π硬生生印到小數點後不知道那一位數,最後正因為不知道該到那一位數,眾說紛紜、言人人殊,只好作罷。
分心了。
我喜歡數字,應該也是因為數字是所有資料中最具療癒效果的,就像小時候上數學課,許多學生隨著秒針的推移,慢慢分心走神出戲一樣。講到數字馬上神思飄移,離題甚遠。別再飄了,快回到這本書,書名是《用數字做決策的思考術》,單刀直入的說這是一本跟數字有關的書,但是其實整本書中的數字,沒有任何一個單獨存在時會具備任何意義,要幾個數字搭配在一起才有意義,要往數字後面看去才有意義。正如書中佳能(Canon)會長御手洗富士夫所說:「沒有數字的故事和沒有故事的數字都沒有意義」。
書中拿來破題的主要例子,就吸引了人無限關注的目光。這個例子是說:單身職業婦女期待男性的年收入是多少?對於自己心儀的男生,所期待的年收入又是多少?根據2010年的統計數字,前者是552.2萬日圓,後者是270.5萬日圓。這中間的差距,就是「愛的代價」。也就是說,根據統計分析:單身職業婦女,願意因為自己所愛的人,降低對年收入的期待近300萬日圓。喜歡的人賺的少一點,甚至連一半都不到,也沒有關係。
當然這只是靜態統計分析,更只是「婚前」的狀況,請讀者不要期待,更不要看了這本書,就責怪你的另一半婚後有所改變,天天督促你賺錢養家,畢竟「婚前」的她,還不理解婚後的柴米油鹽醬醋茶。
其實我自己在理解經濟學或管理學的概念時,也習慣將生澀的文字轉換成圖表或數學的關係式,希望能更容易理解。除了數字,這本書也教會我們運用圖表將數據視覺化的重要性,書中揭述名聞遐邇的白衣天使南丁格爾女士,也設法用圖表來描述克里米亞戰爭的死因結構,她選擇用面積大小來表達傷亡人數的死因比例,結果令人意想不到:士兵傷亡的原因居然不是戰爭負傷身亡,而是因為醫院衛生狀態惡劣,壽終於當時的傳染病。時值維多利亞時代,社會上還有許多目不識丁的升斗小民,多虧了南丁格爾女士淺顯易懂的圖表表示方式,讓當時的國會議員和官僚正視問題的嚴重性,最後迫使軍隊改善醫院狀況,從而拯救許多人命。
這本書的作者,除了試圖用深入淺出的例子,從「分析」開始,誘導讀者對數字背後的意義產生興趣,事實上用心良苦,一步一步進逼,要讀者進入統計學中比較艱深,但是要看懂數字背後的意涵,卻必然躲不掉的領域。像是建立假說來驗證。
書中藉由《愛麗絲夢遊仙境》(Alices Adventures in Wonderland)故事娓娓道來,透過貓咪之口,告訴愛麗絲目標的重要性,因為愛麗絲要貓咪告訴她該往哪兒走,卻沒說想去哪兒,貓咪的回答就是:「只要多走點路,去哪裡都準沒錯」。但是沒目標就是浪費時間。所以作者建議大家工作時需要先建立假說,也就是需要先想出目次(按:大綱、架構),再想出目次的故事發展,雖然好像先射箭後畫靶,但如果假說正確,可以事半功倍,即使假說錯誤,也能提升建立「假說的能力」,可以提高工作效率。
隨著這本書陸續提到反曲點、異質性、抽樣、變異數、共線性、相關係數、簡單迴歸分析和複迴歸分析等術語,乍看之下,還以為這是一本統計學教科書,但是作者透過有趣的故事、令人印象深刻的例子,讓我們更能用淺顯的方式來了解深奧的語言,得知統計學是如何應用在日常生活中,就像書中提及經濟學家奧利•艾森菲特利用複迴歸分析推導出品酒方程式:洋酒的價格取決於年份、氣溫、雨量等,預測結果奇準無比。
如果認真花點時間看懂這本書,不用多久,從簡單的加減乘除到迴歸分析,無論是什麼樣的數字,代表什麼樣的意義,都能手到擒來。
看了這麼多「數字和它的原產地,還有背後的意義」。學而時習之,我們也可以來練習一下:2018年5月,行政院副院長施俊吉表示,台灣的平均月薪資是新台幣5萬多元。好了,這時候鄉談巷議出現了兩組數字,一組是59,852元,另一組是58,931元,到底哪一組數字才是真的?答案是:這兩組數字都是真的。
前一組數字密碼,是2018年第一季台灣的「平均月實質薪資」可達59,852元,是18年來新高,這看起來太高了吧?其實那是因為第一季的總薪資包括年終獎金在內,只除以3,數字會比其他季度要高。
第二組數字是58,931元,這是因為台灣2017年勞工平均薪資49,989元,但是因為外勞人數持續成長,已經有62萬名外勞,而因為外勞人數愈來愈多,而薪資較低;如果排除外勞,本國勞工的平均實質薪資是58,931元,是所有勞工平均實質薪資的1.25倍,也是18年來最高。
這樣的敍述,看起來言之成理,但是又公說公有理,婆說婆有理。不知道各位的想法呢?如果我舉的這個例子,把各位看完本書好不容易燃起的熱情又澆熄,我在此跟各位讀者道歉,請各位繼續看下去,畢竟數字沒有魔法,有魔法的是解釋數字的人。
看完這本書後,讀者應該發現:要討論薪資,不能只有「平均數」,其實「中位數」也很重要,甚至「各區間分配」也很重要。舉例來說,一個城市是春天30℃、夏天40℃、秋天10℃、冬天0℃,另一個城市春天是20℃、夏天25℃、秋天20℃,冬天15℃,兩個城市的年平均溫度都是20℃,哪一個比較適合居住?
前言中提到美國小說家馬克吐溫對數字的評語:「世上有三種謊言—謊言,天大的謊言,還有統計。」信哉此言,為統計分析,或者說是試圖分析數字的行為,下了精采的註腳。讀者們好好看一下這本書,保證不會發出「世上有四種謊言:謊言、天大的謊言、統計還有書序」的喟歎。
【推薦序】數字,是合理解決問題的心法
文/尹相志|亞洲資採(AsiaMiner)技術長
本書一開始就引用了馬克‧吐溫引過的格言「世上有三種謊言:謊言、天大的謊言,還有統計」,這句話聽在政府才剛宣布每月實質薪資近新台幣6萬元的台灣民眾來說,一定是分外有感。
當政府的統計數字背離了民眾的實質感受,大家才會赫然發現,過去依賴決策的數據竟然可能只反映局部的真實,也因此在充滿數據的商業社會中,如果只有分析數字的算法,卻缺乏正確剖析問題,並且思索如何透過數據來合理解決問題的心法,恐怕數據決策帶來的不會是更多的天縱英明的決策者,反而會是製造出更多的恐龍決策觀。
沒錯,就是心法。在筆者曾經有過的數據科學從業經驗中,曾經有看過號稱身經百戰的數據科學家用了號稱是kaggle刷榜神器的Xgboost演算法,來為電信公司解決客戶流失問題。結果分析成果得到的結論告訴我們最重要影響客戶流失的變數是「客戶合約還有多久沒到期」等。這個重大結論一說出,台下所有電信公司主管應該心中都翻了白眼。當花費許多人力物力,卻挖掘的到卻是眾人皆知的常識時,這意味著徒有演算法這把屠龍刀,但是缺乏在數據世界中衝鋒陷陣的戰術心法,恐怕再多戰績都只是辛酸,難以發揮實質的效果。
那該怎麼辦?要培養一個數據科學家,算法統計好教,產業知識比較難教,但是最難教的就是對於數字的敏銳感。而本書正是企圖要來解決數字敏銳感這個棘手難題。
本書前半段「分析的觀念」談的是如何把一個看起來虛無到極點的命題(像是「真愛值多少錢」這種大哉問),能夠轉換為能用數字表示的結果。對多數的數據科學家來說遇到這種題目,恐怕只能徒呼負負,然後回頭上臉書批評這客戶沒sense。但是,作者巧妙的將問題轉換為理想對象收入與「面對心愛的對象時,即使他的收入低到多少我也願意跟他結婚」這兩個數字的比較問題,如此一來,虛無的大哉問立刻變得具體。其實這樣的計算過程就跟我們去計算蘋果手機的品牌溢價其實是一樣的方法論,但是只是一開始的命題談到了真愛,反而讓人一開始不知道該如何下手處理問題,而作者在本書中則是透過大量的案例,逐步培養讀者對於解題的精準度。
本書的後半段「比較的技術」則是直接提供讀者們拆解「每月實質薪資近新台幣6萬元」這句話的技能,從如何應用具備不同說故事能力的圖表,到選擇比較以及呈現趨勢的方法,我想這對於各個讀者來說,不光是強化不被數字欺瞞的消極防禦,更重要的是也讓各位擁有如何藉由數字表達自己理念的積極能力。
畢達哥拉斯(Pythagoras,直角三角形勾股定理發明人)曾說過「萬物皆可數」,現在的世界就是用數字所構成的,掌握商業世界的脈動就必須理解數據,然而您所需要的數據力不僅在於如何算,更重要的是,如何運用心法來解讀潛藏在數據背後的弦外之音,我想本書應該是能夠在這領域助各位一臂之力的重要工具書。