为什么Google与亚马逊比你更了解你的品味?
赌场为什么不让你继续输钱?
数学公式如何帮你找到另一半?
应征工作时,你知道自己是因统计分析而吃了闭门羹吗?
生活里,数据无所不在,
决策只靠经验与直觉,已不够看,
在这个资料至上的社会,统计文盲绝无法成功──甚至难以生存。
数据+直觉+经验=创意──聪明决策
这是个数据思考的时代。
这场数字革命,与其抗拒,不如参与。
「如今我们玩的游戏名叫资料。
这本革命性佳作,不仅读起来饶富兴味,
也可能改变你的思考方式。」
──李维特,《苹果橘子经济学》作者──
举凡医生的诊断、下一代的教育、企业经营、政府组织、网站
──例如Google与亚马逊便比你更了解你的品味──
这些新品种的决策者无处不在发挥影响力。
他们提出的预测精准到让人咋舌。
你知道棒球教练即使没有见过球员也能评断他的潜力吗?
你希望在购买机票之前预知票价会涨还是会跌?
简单的公式为何比酒评家更能预估葡萄酒的品质?
这些问题,超级数据达人都有答案。
在这个方程式VS专家的美丽新世界,
蕴藏其中的利益与风险为何?
谁是赢家?谁是输家?
如何善用超级数据分析以避免被操纵?
仰赖直觉进行决策的时代已然过去。
不论你是企业家、消费者或学生,
若想要超越群伦,在跨出下一步之前一定要先读读
《什么都能算,什么都不奇怪──超级数据分析的祕密》。
作者简介
伊恩.艾瑞斯(Ian Ayres)
计量经济学家与律师,耶鲁法学院教授(William K. Townsend教授席),耶鲁管理学院教授。经常在美国公共电台的「市场分析节目」(Marketplace)担任评论员,也是《富比世杂志》(Forbes)的专栏作家。目前担任《法律、经济学与组织期刊》(Journal of Law, Economics, and Organization)编辑,已出版八本书,发表过上百篇文章。
译者简介
张美惠
台大外文系毕,辅大译研所肄业,专职翻译。曾获梁实秋文学奖译诗组佳作,译作包括《EQ》、《第六感官──爱的气味:费洛蒙》、《破坏性情绪管理:达赖喇嘛与西方科学大师的智慧》、《没有终点的旅程:努兰自传》、《Y染色体──男子汉的本质》、《Wealth 3.0──托佛勒 财富革命》、《血、汗与泪水──人类工作的演化》、《为什么要做爱?》、《大麻?草莓园?色情王国》、《疯足球,迷棒球》(以上由时报文化出版),以及《国家公园之父》、《这就是男人》、《父母离婚后》、《RV亲情新干线》、《和好再相爱》(以上由张老师文化出版)。
推荐序∕张邦昌
超级数据达人的超级任务
前言 超级数据达人崛起
棒球界的艾森菲特
美酒的真相
我为何挺身而出?
本书重点
1. 谁在帮你思考?
速配网弹新调
痛你所痛的哈乐赌场
告诉我你对我了解多少
消费者大反击
让人放心的回归分析
全世界是一个资料大矿场
联想定罪
寻找神奇数字
2. 随机创造你的资料
第一资本的随机实验
你看到的可能是随机试验的网页
谁最具实用创意?
随机试验──用途无限宽广
随机试验为何没有更普及?
3. 机率治国
花钱才能省钱
州的构想实验室
善用既有的随机试验
机率的世界
4. 医生应如何看待实证医学?
拯救十万人
旧迷思阴魂不散
「查就好了」
未来即现在
5. 专家VS方程式
「让人不安的小书」
人为何不擅预测?
何不兼取两者之长?
我们还能做什么?
6. 超级数据分析风潮为何在此时兴起?
从九十到三百万
资料交易
资料混搭
科技或技巧?
电脑能被教导和人一样思考吗?
「我们专门射火鸡」
超级数据分析革命已经来临
数位资讯潮
7. 故事愈来愈精彩
那老师算什么?花瓶吗?
帝国大反击
地位之争
你会向超级数据达人买二手车吗?
艾波公司勇闯好莱坞
提防送礼物的超级数据达人
其他方式的歧视
资料全都露
洛特是谁?
假使算错了呢?
8. 直觉(与专业知识)的未来
掌握未来的(女)人
将资讯浓缩在一个数字里
民调领先的机率解读
反向推理
波拉克的怀孕问题
结语
后记
资料採矿民主化
免费进行随机试验
发掘最有效的诱因
正在成形的趋势
附註
前言 超级数据达人崛起
艾森菲特(Orley Ashenfelter)酷爱美酒,他说:「上好的红酒只要摆上几年,便会发生奇妙的变化。」他不只是执着于酒的美味,还想要了解是什么因素决定酒的等级。
「当你购买一瓶上好的红酒时,其实是一种投资行为,你预期以后可能会更好喝。换句话说,你要知道的不是红酒现在的价值,而是未来的价值。即使你没有要卖而是自己要喝,也是一样。当你想着:『如果我延迟满足,将会得到多大的乐趣呢?』这句话本身就是一个乐趣无穷的问题。」过去二十五年来,艾森菲特投入相当多的心力研究这个问题。
艾森菲特的正职是数据分析专家。他利用统计方法从大量资料集里撷取隐藏的资讯。身为普林斯顿大学的经济学家,他曾研究同卵双胞胎的薪水,以评估多读一年书的影响;也曾经从美国各州道路速限的差异评估州政府如何评价统计学上的人命价值。多年来,他一直担任美国重要经济刊物《美国经济评论》(American Economic Review)的编辑。
艾森菲特身材长大,一头浓密的白发,声音洪亮但亲切,很容易成为一室的主角。他绝不是畏首畏尾的人,如果你以为数据分析专家都是温吞、孤僻型的,他会很快让你刮目相看。我看过他在教室昂首阔步,温和但热情地剖析一篇报告背后的逻辑。当他对某件事赞誉有加时,你可要注意听了。
真正让他惹上麻烦的是透过数据分析来评估波尔多葡萄酒的品质。他不似帕克(Robert Parker)一类葡萄酒专家採取「含酒吐出」的品酒法,而是利用统计学找出葡萄酒有哪些特质会影响售价的高低。
他说:「这其实很简单,葡萄酒是一种深受每年气候变化影响的农产品。」他研究法国波尔多地区数十年的气候资料,发现收成时雨量少加上夏季平均温度高,便能生产出最好的酒。一九五二至八○年的统计资料很符合勃艮地与波尔多的葡萄酒价格。
当葡萄够成熟且果汁浓度高时,波尔多葡萄酒的品质最佳。夏天特别热的年份,葡萄够熟,酸度自然降低。若降雨量低于平均值,葡萄的浓度便很高。因此,最高品质的葡萄酒多产于又热又干的年份。成熟的葡萄酿造出的酒比较柔和(酸度低),浓度高的葡萄则能制造出酒体醇厚(full-bodies)的美酒。
他很大胆地将这套理论化为下列公式:
葡萄酒的品质=12.145+0.00117×冬季雨量+0.0614×生长季平均温度-0.00386×收成季雨量
没错,只要将任何年份的气候统计数字填入,他就能预测当年度葡萄酒的一般品质。他还有更复杂的公式,可精确预测超过一百家酒庄的葡萄酒品质。他承认:「看起来似乎就是一堆数字,但法国一八五五年着名的分类法就是用这个方式为葡萄园排名的。」
传统的葡萄酒评论家对艾森菲特这种资料导向的预测法却很不买帐。英国的《美酒》杂志(Wine )说:「该公式之荒谬可笑不言可喻,根本不值一哂。」纽约酒商索科林(William Sokolin )指出,波尔多葡萄酒业者对艾森菲特公式的看法「反应非常激烈,近乎歇斯底里」。有些商会成员对他嗤之以鼻,有一次他到佳士得拍卖公司的酒类部门演讲,坐后面的酒商公开嘘他。
帕克堪称世界最具影响力的葡萄酒作家(也是《美酒鑑赏家》〔The Wine Advocate〕的出版者),骂起艾森菲特非常生动,称之为「如假包换、百分之百的骗子」。艾森菲特则是全球最受尊重的计量经济学家(quantitative economist)之一,但帕克认为他「根本是用原始的方法在评论葡萄酒,荒谬到可笑的程度」。他认为数学公式绝无法算出真正美味的好酒:「我绝不希望被邀请到他家品酒。」
帕克说艾森菲特「就像一个从不看电影的影评人,光看演员与导演是谁便进行评论」。帕克的话不无道理。实际去看电影当然比较准确,那么,实际去品尝美酒,应该会作出较中肯的评论吧?但这里面有个问题:你必须等好几个月才能尝到酒。波尔多与勃艮地葡萄酒必须先储存在橡木桶里十八至二十四个月,再装入瓶中慢慢成熟。葡萄酒放入桶子后,帕克这样的品酒专家必须等待四个月才能尝到第一口─那时的酒还在发酵,挺难喝的。喝下如此难喝的新酒,真能准确预知未来的品质吗?很难说。举例来说,凯塞(Bruce Kaiser)曾任拍卖商伯得富(Butter.eld & Butter.eld )的酒类部门主管,他指出:「新酿的酒变化很快,没有人─任何人都没办法─靠品尝作出正确评估,至少得等十年、甚至更久。」
反之,艾森菲特的作法是运用数据分析找出气候与价格的历史关系。他发现冬季的雨量每增加一公分,可让酒的预期售价提高○?○○一一七美元。当然,这只是一个趋势。但透过这个方法,他可以在葡萄刚採收时便预测未来的酒质─比专家尝到第一桶酒早了几个月,比成品售出时间更提前数年。在葡萄酒期货交易热络的时代,他的预测让美酒收藏家多了一分竞争力。
一九八○年代末,他开始将他的预测刊登在半年发行一次的通讯《液体资产》(Liquid Assets)。刚开始,他在《美酒观察》(Wine Spectator)刊登小广告,慢慢累积了约六百位订户。这些订户是来自各地的富翁与酒迷,基本上是一小撮较能接受计量经济学方法的酒类收藏家。有多达三万人每年付三十美元订阅帕克的通讯《美酒鑑赏家》;相较之下,艾森菲特的订户少得可怜。
一九九○年代初,《纽约时报》(New York Times)头版有篇文章介绍艾森菲特的预测方法,他的观念引起更广泛的注意。帕克对一九八六年波尔多葡萄酒的评价是「非常好,甚至极好」,艾森菲特的看法却大不相同。他认为那年生长季的温度低于平均值,收成季的雨量又高于平均值,酿出的葡萄酒註定品质平平。
文章中真正的震撼弹是艾森菲特对一九八九年波尔多葡萄酒的预测。那些酒放入桶子里还未满三个月,甚至没有酒评家品过,艾森菲特却已预测那个年份的酒质将是「世纪之最」,保证「非常出色」。依据他的标准,一九六一年的波尔多葡萄酒若是一百分,一九八九年的波尔多可高达一四九分,他大胆预测,「将创出三十五年来最高售价」。
酒评家都被激怒了。帕克讥讽艾森菲特的量化预估「荒谬可笑」,索科林说酒评家的反应「介于愤怒与恐惧之间,他真的得罪了一缸子人」。不到几年,《美酒观察》拒绝再为他(或任何人)的通讯刊登广告。
传统专家准备群起攻之,指出他的方法大有问题,无法精确预测未来的价格。举例来说,《美酒观察》的品酒主管马修斯(Thomas Matthews)抱怨他的价格预测「在二十七种酒里只有三种准确」。他的「公式虽依据价格资料设计,他预测的价格有时会高于实际价格,有时又太低」。但对统计学家(或任何曾思考过统计学的人)而言,这其实是好事,有时高、有时低代表不具偏见。事实上,艾森菲特的预测凸显出帕克最初的评比都偏高了,往往有向下修正的必要。
一九九○年,艾森菲特更进一步独排众议。先前他宣布一九八九年波尔多葡萄酒是世纪之最,他从资料中看出一九九○年的酒质更佳,而且将此发现公诸于世。回头来看,《液体资产》预测之准确让人惊讶,八九年的波尔多葡萄酒品质确实很好,九○年的酒质也确实更好。
怎么连续两年产出世纪最佳的葡萄酒?原来自一九八六年以后,没有一年的生长季温度低于平均值;事实上,有长达二十多年的时间,法国一直享有宜人的气候。那两年特别适宜酿造柔顺的波尔多葡萄酒;对葡萄酒爱好者而言,这当然是好事。
现在,传统专家比较注意气候了。多数人并未公开承认艾森菲特的预测准确,但他们自己的预测确实比更贴近艾森菲特简单公式的计算结果。艾森菲特的网站www.liquidasset.com 还在,但已没有发行通讯。他说:「那些品酒家和以前不一样了,不会再犯严重的错误。坦白说,是我自己断了自己的生路,我已没有什么利用价值。」
批评者视他为异端,唯恐他揭开品酒世界的神祕面纱。他扬弃花稍无意义的词汇(如「强劲」、「坚实」、「轻盈」),直接说明预测的根据。
业者的反弹不只关于品酒美学。凯塞说:「酒商与评论家就是不希望大众太深入了解。最早的争议源自八六年份的酒,艾森菲特说那些佳评都是骗人的。那一年其实很糟糕,雨水太多,温度又不够高,但当时所有的酒评家都说得天花乱坠,强调那年的酒有多好。事实证明,艾森菲特是对的,但观点正确未必受欢迎。」
酒商与酒评家为顾及自身利益,当然有必要持续垄断有关酒品质的资讯。酒商利用永远过高的初期评比来稳定酒价,《美酒观察》与《美酒鑑赏家》更因投资了几百万美元在里面,不能轻言放弃品酒界的龙头地位。正如美国作家辛克莱(Upton Sinclair)及后来的美国前副总统高尔(Al Gore)所说的:「如果一个人因不懂某件事才赚得到钱,自然也很难让他搞懂。」酒类也是如此,艾森菲特指出:「必须让很多饮酒的人都认为我的公式没用,那批人才赚得到钱。现在突然间让那些人的工作失去价值,他们当然不会高兴。」
不过我们看到一些改变的迹象。布洛班(Michael Broadbent)是伦敦佳士得国际酒类部门主管,他的说法很有技巧:「很多人认为艾森菲特是个怪咖。我想从很多方面来说,他确实是怪,但几年下来,我发现他的观念与研究很准,对想要买酒的人确实有帮助。」
棒球界的艾森菲特
品酒专家的浮华世界似与棒球毫不相干,但就很多方面而言,艾森菲特对前者的影响就如作家詹姆斯(Bill James)之于棒球界。
詹姆斯在自编的年鑑《棒球摘要》(Baseball Abstracts)里,对棒球专家仅凭目测就能挖掘明日之星提出质疑。路易士(Michael Lewis )在所写的《魔球─逆境中致胜的智慧》(Moneyball )里指出,詹姆斯是棒球界主张资料导向决策的第一人。詹姆斯的论点简单有力,他认为资料分析优于专家的观察力:
要评估球员的潜力需要很多资讯,光凭肉眼是不够的。请想想看,打击率三成与二成七五的球员怎么可能凭肉眼看出来?两者的差异是每两週多一支安打……。如果你一年看两者打十五场球赛,有四○%的机率会看到二成七五的球员击出较多安打……。优秀球员与一般球员的差异根本无从分辨─关键在于资料。
就像艾森菲特一样,詹姆斯相信公式。他说:「评量球员的价值应该看他的得分贡献。」因此詹姆斯设计了一套公式:
得分=(安打+保送)×垒打数∕(打数+保送)
这个公式较注重球员的上垒率,对常被保送者尤其给予较高评分。詹姆斯的数据分析法当然让球探恨得牙痒痒的。如果说帕克之类的酒评家是靠味觉与嗅觉生活,球探就是靠眼力维生,那是他们的价值所在。正如路易士所说的:
你知道球探如何找到明日之星吗?就是开车奔走六万哩,住上百家破烂的汽车旅馆,不知要在「丹尼」(Denny's )连锁餐厅吃几百次饭,才能在四个月内看完两百场高中与大专棒球赛,其中一百九十九场完全没有意义……。你走进球场,在补手正后方第四排的铝质长条椅坐下,以便看到别人看不到的东西─至少别人看到了也不知其意义。你只要看到一次就够了。「只要看一次,就知道了。」
球探和帕克那类酒评家的共同点不只是喜欢吐口水。正如帕克相信他只要尝一口酒就可评断酒的品质,球探相信看一眼就可知道某高中球员是否有发展潜力。
这两种情况都尝试预测未经试验、不成熟产品未来的市值,只是一个是葡萄,一个是球员。两种情况的主要争议在于:究竟应该相信专家的观察,还是量化的资料。
球探和酒评家一样,常诉诸无法证明真伪的模稜语汇,如「他是真正的棒球员」或「他是天生好手」。
《魔球》里谈到,资料与传统专家的冲突在二○○二年达到最高点。奥克兰运动家队(Oakland A)的总经理毕恩(Billy Beane)要征选布朗(Jeremy Brown)。毕恩读过詹姆斯的文章,决定依据数据用人。毕恩看上布朗,是因为他比其他大专球员更常被保送。而球探都不喜欢布朗,理由是他太肥。运动家队的球探冷嘲热讽说他若穿灯芯绒裤跑垒,「准会着火」。球探一致认为像他那种身材的球员不可能打进大联盟。毕恩完全不在乎球员的外型,他的说法是:「我们又不是卖牛仔裤。」他唯一的要求是赢得比赛。事后证明,那些球探似乎都看走眼了,布朗比运动家队那年获选的其他球员都进步得快速。二○○六年九月,他首度以大联盟球员的身分为运动家队效力,打击率高达三成(上垒率三成六四)。
詹姆斯最初尝试散播数据分析结果的情形与艾森菲特极雷同。就像艾森菲特,詹姆斯先为他的第一份通讯《棒球摘要》刊登小幅广告(他美其名称之为一本书)。第一年售出七十五册。就像艾森菲特被《美酒观察》拒绝往来,詹姆斯要求艾利斯体育研究公司(Elias Sports Bureau)分享资料时,也同样遭受冷落。
但这两人已在各自的领域留下永久的印记。《魔球》一书详细记录了运动家队的辉煌战绩,乃至波士顿红袜队在艾普斯坦(Theo Epstein)的资料导向管理下,赢得第一次世界冠军,在在见证了詹姆斯恆久的影响力。传统品酒作家后来开始参考气候变化作更准确的预测,其实也等于默默向艾森菲特致敬。
这两人带动了统计研究的风潮,不少人对他们的数据分析大表认同。詹姆斯激励了美国棒球研究学会(SABR)的成立,现在甚至有一个术语代表棒球领域的数据分析─棒球统计学(sabermetrics)。艾森菲特则是在二○○六年发行《美酒经济学期刊》(Journal of Wine Economics)。现在还有一个酒类经济学家协会;毫不令人意外,艾森菲特就是首任会长。事后看来,艾森菲特初期的预测超准。我查了一下拉图堡(Chateau Latour)最近的葡萄酒拍卖价,一九八九年份的售价果然是八六年份的两倍有余,九○年份的售价更高。帕克,你能不心服吗?
美酒的真相
本书旨在说明数据分析在品酒与棒球界的兴起绝非单一现象,这两个例子是本书探讨内容的缩影。我们正处于马车与火车竞赛的历史转捩点,直觉与专业经验一次又一次败给数据分析。过去,很多决策都是依据经验与直觉的某种组合,专家凭借个人数十年尝试犯错的经验而广受尊崇。一般人总认为专家最懂,因为他们已累积千百次的经验,所以能够在社会上生存、成功。任何人想要知道某个问题怎么解决,问老经验的专家就是了。
现在情势转变了。公私领域的专业人员愈来愈仰赖资料库作为决策依据。避险基金的故事让我们看到新品种的数据分析专家已然问世─姑且称之为「超级数据达人」(Super Crunchers)─这些人透过大量资料集的分析,在看似不相干的事物中找到实证的关联。你有大笔欧元部位需要避险吗?他们可能会告诉你,你应该卖出由二十六种股票与商品组成的保守平衡标的,里面可能包括美国连锁超商沃尔玛的股票。
什么是「超级数据分析」(Super Crunching)?超级数据分析是影响实务决策的一种统计分析,通常是透过数量、速度、规模的某种组合作出预测。这种分析使用的资料集都很庞大─所谓庞大包括资料与变项。此外,分析速度也愈来愈快,往往资料刚出炉便能作出即时的数据分析。影响的程度更是不可小觑,这里所说的可不是一小撮学院书呆子弄出几篇耸动的文章,超级数据分析是因应决策者的实际需求而生的,甚至由决策者自己主导。
我说超级数据达人运用的资料集很庞大,这句话一点也不夸张。现在业者或政府的资料集往往不是以百万位元(mega)或十亿位元组(gigabytes)计,而是兆位元(tera),甚至千兆位元组(petabytes)。一个兆位元组相当于一千个十亿位元组。兆位元一词源自希腊文,原意庞然大物(或怪物)。事实上,兆位元组也确实是庞然大量─整个美国国会图书馆的藏书也不过大约二十兆位元组。本书的一个重点是告诉读者要开始习惯这个单位。举例来说,沃尔玛的资料库储藏量超过五百七十兆位元组,Google 则约有四千兆位元组必须日夜分析。显见资料採矿(tera mining)已不再是幻想故事的题材,而是此刻正在发生的事。
在一个又一个领域,「直觉主义者」与传统专家都在与超级数据达人对抗。在医界,「实证医学」(evidence-based medicine )引发激烈争辩,归根究底,争的是治疗方法的选择是否应该依据统计分析。直觉主义者当然不会轻易认输,他们坚称资料库绝无法涵盖专家穷一生经验累积的知识,回归分析也绝比不上一个有二十年资历的急诊室护士,她可能只要看一眼就能判断一个小孩是否「不太对劲」。
当我们想到棋王卡斯帕洛夫(Garry Kasparov)会输给电脑「深蓝」(Deep Blue),总认为是因为IBM 的软体太聪明。其实那个软体就是一个庞大的资料库,将各棋步的优劣进行详细的比较。电脑的速度很重要,但电脑真正致胜的关键在于掌握了七十万种棋赛的资料库。卡斯帕洛夫的直觉败给了资料导向的决策。
超级数据达人不仅侵入传统专家的领域并取而代之,更改变了我们的生活。他们不仅改变了人们的决策方式,也改变了决策本身。棒球球探会败给统计专家,不只是因为数据分析专家的成本比球探搭飞机跑来跑去低很多,也因为球探的预测比较不准。当然,超级数据达人与专家的意见并不是每次都不相同,有时候数据分析专家的结果还印证了专家的智慧。如果专家的预测百分之百都是错的,甚至比一般机率还低,那这个世界也未免太扭曲了。但事实是,数据分析专家可以让我们作不同的选择,而且通常是更好的选择。
我们在一个又一个领域观察到同样的现象:看起来完全不同的的资讯因统计分析而发掘出隐藏的关联。假设你是政治人物,想要知道谁最可能捐款给你、用哪一种形式争取选票最有效,你不需要猜,也不一定要遵循经验法则,或是信任经验老到的专家。现在,你也可以拣选不同元素的可测量效益,找出最能打动人的作法。透过资料库的搜索,能够揭露传统专家永远想不到的隐藏因素。我们周遭到处看得到资料导向的决策:
.租车公司与保险公司拒绝为信用评比低的人服务,因为他们从资料採矿得知信用评分与行车事故的机率有关。
. 有人取消机位时,航空公司不再优先给常客,而是给资料採矿结果认定最可能跳到别家公司的顾客。此外,很多公司不再採取先到先服务的原则,而是依据个别顾客的数十种状况而定。
.依据「有教无类法案」(No Child Left Behind Act ),学校的教学方法必须通过严谨的资料分析,老师因而花费四五%的上课时间训练学生通过标准化的考试。部分老师上课时甚至要使用经过统计评估的固定用语。
直觉主义者可要提高警觉了。本书将详细介绍一连串让人眼花缭乱的超级数据分析案例,以及案例的主角。超级数据分析革命并非只发生在棒球界或体育界,而是遍及日常生活的每个层面。很多时候,超级数据分析革命对消费者是好的,可以让厂商与政府更准确预测民众需要,但有时候可能形成对消费者不利的情势,因为厂商能准确预测出从我们身上可榨出多少钱。
李维特(Steven D. Levitt )与杜伯纳(Stephen J. Dubner )在《苹果橘子经济学》(Freakonomics )里提出数十种例子,说明资料库的统计分析如何揭露因果关系背后的关键力量。而李维特与唐纳修(John Donohue )让我们知道,看似不相干的事件,如一九七○年的堕胎率与一九九○年的犯罪率,其实有很重要的关联。(这两人都是我的好友,也曾合作写书,本书后面会再提到他们。)但《苹果橘子经济学》并未讨论量的分析如何影响实务决策,而这正是本书要补足的重点。事实是,产业内、产业外,有许多人正透过你想不到的方式将统计分析运用在各项决策上。
电脑资料库的容量大增,正让全球产业改变风貌。一九五○与六○年代,人们曾经预期(又害怕)在强势政府与企业的主导下,精密的社会工程(social engineering )将席卷全世界─例如派卡德(Vance Packard )所写的《隐形的说客》(The Hidden Persuaders)便反映出这种心理。现在,同样的情势似乎又在新一代身上出现。只是过去我们以为强势政府会透过命令与控制解决所有问题,这次观察到的,却是超大的资料网路在发威。
我为何挺身而出?
我本身是一个数据分析专家。虽然我在耶鲁教法律,在麻省理工学院读博士时学的却是经济。我分析过各种领域的数据,从假释金到肾脏移植、隐匿携枪、无防护措施的性行为,无所不研究。读者可能在想,这样一个象牙塔里的书呆子一定和现实世界的决策大大脱节(没错,我确实是那种心不在焉的教授,有一次要搭火车到波基普西市〔Poughkeepsie 〕,却因写文章太投入一直坐到纽哈芬〔New Haven)〕。但就连书呆子的资料採矿结果,有时也会影响现实世界。
几年前,李维特和我曾合作探讨一个很实际的问题─路捷失窃车辆寻回系统(LoJack )对汽车失窃率的影响。路捷是一种小小的无线电收发器,可以隐藏在汽车内很多位置。当汽车被通报失窃时,警察可遥控启动无线电收发器,具特殊配备的警车便可找出失窃车辆的确切位置。路捷可说是很有效率的找车装置,路捷这家公司很清楚这点,也很自豪地在广告中宣扬失窃车辆的找回率达九五%。我和李维特想要试验路捷是否有助于降低整体失窃率。很多防盗器的问题在于只是转移犯罪目标,例如你的车子装了方向盘锁,大概无法遏止犯罪,顶多让窃贼多走几步路去偷另一辆车。路捷最厉害之处在于它是隐藏的。如果一个城市有很多汽车都安装路捷,窃贼将无法得知哪部车装了、哪一部没装。
李维特喜欢探讨的就是这类怪问题。难怪《苹果橘子经济学》的评论家会说李维特看事情的角度与众不同。几年前,我刚好多一张球赛的票,便邀他和我一起去看麦可?乔登为「芝加哥公牛」出赛。李维特认为他若能更投入,会看得更有趣。但他不像我那么在意公牛赢还是输,因此,就在开赛前,他赶紧上网下注,押公牛赢。果然他看球赛时变得相当投入,网路赌博改变了他的动机。
从某个奇特的角度来看,路捷也能改变人的动机。在路捷出现之前,很多职业窃贼几乎不可能被抓。路捷改变了这一切。现在警察不仅能找回失车,往往也能逮到窃贼。单是在洛杉矶,就有上百家赃车解体工厂因此被破获。如果一个人在路捷使用率高的城镇偷了一百辆车,几乎必然会偷到装有路捷的车。我们想要试验的是,路捷是否能全面吓阻窃车;如果可以,这便创造出经济学家所谓的「正向外部效应」(positive externality )。当你在车上装方向盘锁,可能会使邻车被偷的机率提高。但如果很多人装路捷,我们认为可能对职业窃贼产生赫阻作用,避免别人的车子被偷。
我们最大的问题是说服路捷将销售资料交给我们。我记得曾一再打电话沟通说服他们,我和李维特的假设如果为真,会让消费者更有理由购买路捷。如果路捷让别人的车辆失窃率跟着降低,或许路捷可以说服保险公司提供路捷使用者较多的折扣。最后,终于一位低阶经理寄来一堆有用的资料,但坦白说,路捷刚开始对这项研究并不是很感兴趣。
当路捷看到研究报告的初稿时,一切都改观了。我们看了五十六座城市十四年间的汽车失窃资料,发现路捷对其他车主助益颇大。在高犯罪率地区,投资五百美元装路捷,可让未装路捷的汽车减少五千美元的损失。我们将路捷的销售数字依年份及城市细分,精确评估路上的汽车有多少比例装了路捷。(以波士顿为例,当地规定的汽车保险折扣最多,超过一○%的汽车都有装路捷。)我们要探讨的是,当路捷使用者增加时,对全市汽车整体失窃率有何影响。由于路捷在各城市开始销售的年份不同,我们在评估路捷的影响时,可轻易与同一年度的一般犯罪率分开来看。我们在许许多多城市都发现同样的现象─随着路捷装设率增加,汽车失窃率明显下降。保险公司给予路捷的折扣根本不够多,因为他们没有考量到,连缺乏保护的汽车也因路捷减少了保险理赔。
我和李维特都没有买路捷的股票(坦白说,那是因为我们不希望改变自己的动机),但我们自知掌握了宝贵的资讯。我们的报告发表后,该公司股票涨了二?四%。我们的研究说服了更多城市採用路捷科技,也促使保险公司提供更多折扣(但还是不够多)。
我要表达的重点是,我热爱数据分析,我的角色等于是资料採矿咖啡厅里的主厨。就像艾森菲特一样,我在一份重要期刊《法律、经济学与组织期刊》(Journal of Law, Economics, and Organization)担任编辑,必须经常评论统计报告的品质。由我来探讨资料导向决策的兴起,具备绝佳的视野,因为我既是这股风潮的参与者也是观察者,能看热闹也能看门道。
本书重点
下面五章将详述超级数据分析在整个社会的兴起。前三章会介绍两种基本的统计方法─回归分析与随机试验,说明量化预测的艺术如何重塑企业与政府。第四章讨论实证医学引起的争议。第五章则介绍上百项试验结果,以比较资料导向决策与经验决策跟直觉决策之间的差异。
本书第二部分将退一步评估这个趋势的重要性,探讨为何在此时形成潮流,以及这是否值得令人欣喜。第七章检视这股风潮中哪些人的损失最大─包括失去地位与裁决权。最后一章要展望未来,超级数据分析不代表直觉将被摒弃或职场经验不再重要。我们相信在新时代里,最聪明优秀的人必能同时善用统计与创意。
总而言之,本书并不是要全盘否定直觉或专业经验作为决策依据的价值,而是要凸显出这两者的演变轨迹,以及如何与资料导向的决策相辅相成。事实上,我们看到一种新型的超级数据达人─如李维特─在直觉与数据分析之间悠游往返,却也因此比直觉主义者或统计专家看得更远更广。
中文版推荐序
超级数据达人的超级任务
辅仁大学统计资讯学系教授∕中华资料採矿协会 理事长 谢邦昌
伊恩.艾瑞斯是美国着名的计量经济学家与律师,经常在美国公共电台的「市场分析节目」(Marketplace)担任评论员,也是《富比世杂志》(Forbes)的专栏作家。目前为耶鲁法学院教授(William K. Townsend教授席)、耶鲁管理学院教授,也担任《法律、经济学与组织期刊》(Journal of Law, Economics, and Organization)编辑,着作等身。很荣幸能帮他的新书《什么都能算,什么都不奇怪──超级数据分析的祕密》中译本写推荐序,这本好书介绍的是数据分析──让你我都身陷「数海」的解救者。
数据分析无所不在
大多数科学家在面对数据分析时,都会问「我该收集什么数据」、「从数据中我可以作出什么结论」,或是「对于结果,我可以相信多少」之类的问题。其实,统计学与资料採矿(Data Mining)是数据分析(data analysis)的科学,用来处理归类分析数据的问题并作出决策。处理问题所用的一些数据分析方法,例如假设检定、线性回归分析、标准差及信赖区间……等等,我们在科学上都很熟悉。
许多传统的数据分析方法是在一九二○年到五○年之间发展出来,而这段期间的数据分析学家包括费雪(R. A. Fisher)、尼曼(Jerry Neyman)及荷特林(Harold Hotelling)等人。到了一九八○年代以后,因为电脑的快速发展,硬体速度愈来愈快,软体解决问题及运算的能力愈来愈强,使得数据分析的理论及新的数据分析方法论受到很大的影响,诸如一些在电脑应用上发展得不错的数据分析方法论,都是统计学与资讯科学的结合,而这些新的方法现在都大量运用在数据分析上。
几乎每个领域都需要使用数据分析作为分析工具,甚至扮演举足轻重的角色。当然并非没有数据分析就无法运作,但有了数据分析加入,可以作出更好、更精致的决策,因此数据分析可应用的层面是无所不在的。
管仲曾说:「不明于计数欲举大事,如舟之无楫而欲行于大海也。」(《管子?问篇》)意指在不清楚相关数据的情况下想做大事,无疑像没有桨的船想航行于汪洋大海中。《什么都能算,什么都不奇怪》列举许多数据分析协助成功决策的例子,从红酒的品味公式、赌场的输赢、治国的机率分析、医生应如何看待实证医学,到棒球及职业球赛,都是利用数据分析的结果作决策并掌握趋势的实证例子。
收到书的时候,封面设计就很有质感,黑白为主调,搭配上一个抽象的图形,看起来很有科技感,又不失神秘感。书名“什么都能算,什么都不奇怪”更是直击人心,总感觉里面藏着一些我们平常忽略的、但却又无比重要的东西。翻开第一页,就被作者的开篇给吸引住了。他没有一开始就讲那些复杂的公式和模型,而是用了一个非常贴近生活的小故事,说明了数据在决策中的重要性。这个故事讲的是一个杂货店老板,通过记录顾客购买的商品种类和频率,最终成功地调整了货架的摆放,大大提升了销售额。 这个例子真的太形象了!让我立刻意识到,原来数据分析并非遥不可及,它就藏在我们日常的经营和生活之中。书中提到的一些案例,比如分析某件商品为什么会突然大卖,或者预测某类产品的用户偏好,都让我觉得非常实用。我脑海里立刻闪过很多自己生活中遇到的类似情况,比如为什么有时候我明明觉得某个东西很好用,但销量却不高?或者为什么某个网红产品突然就爆红了?如果这本书能够提供一些分析的思路和方法,让我能够理解这些现象背后的逻辑,那绝对是物超所值。我尤其期待书中关于“预测”的部分,毕竟能够提前预知趋势,总是让人充满安全感。
评分这本书的题目真的很有意思,一开始看到还以为是本算命的书,或者是什么玄学之类的,毕竟“什么都能算”听起来就有点神秘兮兮的。但点进去一看,是关于“超级数据分析”的,这反差也太大了,让我好奇心瞬间爆棚。我一直觉得数据分析离我们很遥远,好像是科学家、工程师那种高大上的职业才会用的技能。结果这本书居然告诉我,好像我们生活中很多东西都可以用数据来分析,而且还能得出一些意想不到的结论。 比如,我常常觉得,为什么我喜欢的那几家餐厅,生意总是那么好,而且菜品口味好像也很稳定?这本书会不会解释,其实这些店主可能就默默地在观察顾客的点餐习惯,分析什么菜卖得最好,什么时段人最多,然后根据这些数据来调整菜单和备货?再比如,我平时追剧,有时候会觉得某些剧情的发展特别有道理,有时候又觉得很狗血。是不是也可以用数据来分析,哪些类型的剧情更受欢迎,哪些桥段更容易引起观众共鸣,甚至哪些演员的表演更能带动收视率?如果这本书能把这些隐藏在生活中的“数据规律”揭示出来,那真的太有趣了。我本身不是学统计或计算机的,所以很期待它能用比较易懂的方式来解释这些概念,让我也能窥探到“超级数据分析”的冰山一角。
评分拿到这本书的时候,我其实是带着一点点怀疑的态度。毕竟“超级数据分析”这个词听起来就有点夸张,而且“什么都能算”更是让人觉得有点不靠谱。不过,当我开始阅读之后,我的这种疑虑就烟消云散了。作者的笔触非常生动,他没有直接抛出复杂的理论,而是从一个又一个引人入胜的故事讲起,娓娓道来。 让我眼前一亮的是,书中对于“因果关系”和“相关关系”的区分。这绝对是数据分析中的一个核心问题,也是很多人容易混淆的地方。作者用非常生活化的例子,比如“冰淇淋销量和溺水人数都上升”这个经典的比喻,清晰地解释了相关性不等于因果性。这让我对很多社会新闻或者广告宣传中模糊因果关系的做法有了更深刻的理解。我平时也经常会听到一些“大数据显示…”,但总觉得哪里不对劲,这本书就像给我打开了一扇窗,让我能够更理性地看待这些信息。我期待书中能够更深入地探讨如何避免数据分析中的陷阱,以及如何建立更严谨的分析框架。
评分说实话,这本书真的让我大开眼界。我一直以为数据分析就是那些公司用来优化产品、提升营销效果的东西,离我们普通人太远了。但这本书完全打破了我的这个认知。作者用一种非常接地气的方式,解释了“数据”到底是什么,以及我们如何能够利用它来理解世界。 我尤其喜欢书中关于“隐藏的规律”的论述。作者指出,很多时候,我们看似偶然的事件,其实背后都有着数据支撑的规律。比如,为什么某个音乐风格会突然流行起来?为什么某个社交媒体平台的用户增长会放缓?这些看似随意的现象,如果进行深入的数据分析,都能找到其内在的逻辑。这本书教会我的,不仅仅是分析数据的方法,更是一种观察世界、思考问题的方式。它让我开始更加留心身边的事物,并且尝试去思考,这些事物背后可能存在着怎样的“数据故事”。我感觉这本书就像是一个引路人,指引我去探索数据世界的奥秘,让我相信,即使是“什么都不奇怪”,也一定有可以被理解的“为什么”。
评分这本书真的颠覆了我对“数据”的认知。我一直以为数据分析就是一堆冰冷的数字,只有专业人士才能驾驭。但读了这本书之后,我发现数据分析原来可以这么有趣,而且应用范围如此之广。作者在书中花了很大的篇幅去解释,为什么“什么都能算”,背后的逻辑是什么。他通过大量的案例,从商业决策到社会现象,甚至是个人生活中的选择,都展示了数据分析的强大力量。 让我印象最深刻的是,书中提到的一些“反直觉”的发现。比如,有时候我们认为很重要的事情,在数据面前可能微不足道;而一些我们忽略的细节,却能成为关键的驱动因素。这让我开始反思自己平时的决策方式,是不是太依赖主观臆断,而忽略了客观的数据支持?作者还鼓励读者要保持开放的心态,不要轻易否定任何一种可能性,因为在数据面前,很多“奇怪”的事情都会变得合乎情理。我特别喜欢书中那种探索未知的精神,它让我觉得,即使是看似微不足道的信息,也可能蕴含着巨大的价值,只要我们懂得如何去挖掘和解读。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有