数据分析的力量 Google、Uber都在用的因果关系思考法

数据分析的力量 Google、Uber都在用的因果关系思考法 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 数据分析
  • 因果推断
  • 商业分析
  • 决策分析
  • 统计学
  • Google
  • Uber
  • 数据科学
  • A/B测试
  • 实战指南
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

大数据+人的判断力=发掘真相!

  本书为资料分析入门书,聚焦于「广告对业绩有影响吗?」、「实施某政策真能带来良好影响吗?」这类因果关系分析。序章使用各种实例,解说釐清因果关系为什么是生意或政策的成功关键。第2章起不使用数学表达式,仅运用具体事例及视觉化的描写,介绍随机对照试验、RD设计、纵横资料分析等,可探究因果关系、最先进的资料分析手法。不使用数学表达式,仅透过简明易懂的方式,解说随机对照试验(RCT)、RD设计(不连续回归设计)、堆集分析、纵横资料分析等最先进有效的手法!

  【本书介绍的主要具体事例】
  .前美国总统欧巴马于2012年总统大选时,因正确釐清竞选广告策略的因果关系,募得多达72亿日圆的选举资金。
  .Google显示的蓝字,用的是透过因果分析实验,从「41种蓝色」中选出的最佳蓝色。
  .标示含税价后,超市业绩减少8%?
  .Uber如何运用资料分析,调整最合适的费用?
  .无偿提供笔记型电脑,孩童的成绩就会变好吗?
  .「节电请求」真能促进节电吗?
  .医疗费用的自负额降低,会使看病人数暴增吗?
  .汽车的油耗规定,真能提升燃油效率吗?
  .提高所得税会使人们不想工作吗?会使人们移居到税金较低的国家吗?
  .广发补助金的景气刺激政策,真的有效果吗?

本书特色

  ●日本AMAZON畅销书,读者4.5颗星好评

  ●以图表为主、数式为辅,透过简明易懂的方式,解说随机对照试验(RCT)、RD设计(不连续回归设计)、堆集分析、纵横资料分析等最先进有效的手法!

  ●芝加哥大学哈里斯公共政策研究学院副教授伊藤公一朗亲自撰写,为想了解、分析大数据之人必备专业书籍

  ●本书荣获日本第39回三得利学艺奖暨第60回日经・经济图书文化奖
 

著者信息

作者简介

伊藤公一朗(Koichiro Ito)


  芝加哥大学哈里斯公共政策研究学院副教授。一九八二年出生于宫城县。京都大学经济学院毕业,加州大学柏克莱分校博士课程修毕(Ph.D.)。曾任史丹佛大学经济政策研究院研究员、波士顿大学商学院副教授,二○一五年起从事现职。专攻环境能源经济学、产业组织理论、应用计量经济学。目前在芝加哥大学进行环境政策、能源政策的实证研究,同时也向研究生讲授资料分析的理论与应用。授课内容与研究论文刊登于个人网站上(www.koichiroito.com)。
 

图书目录

前言

第1章 从资料导出因果关系为什么并不容易?
例1:广告使冰淇淋的业绩增加了?
例2:调涨电价能促进节电吗?
例3:出国留学比较容易找到工作?
难以证明因果关系的原因1:有可能是其他因素造成影响
难以证明因果关系的原因2:有可能为反向因果关系
因果关系不同于相关关系
社会上充斥着启人疑窦的资料分析结果
为什么误判因果关系会出问题?
让小孩开着灯睡觉就会近视?
只要蒐集资料,就能排除所有的其他因素吗?
即使增加资料观察数也无法解决偏误问题

第2章 在现实世界「实际进行实验」――随机对照试验(RCT)
因果关系可用「介入效果」定义
难以导出因果关系是因为「如果」的资料并不存在
解决办法就是介入组与比较组之概念
分组方式的坏例子:应要求予以介入(自行选择)
最好的解决办法就是「随机对照试验(RCT)」
为什么随机分组是关键?
RCT的具体事例1:北九州市的电价实地实验
若採随机分组,两者的各项因素实际上是相等的
实验结果:调涨电价真能促进节电吗?
RCT的优点之一就是分析与结果具透明性
RCT的具体事例2:前美国总统欧巴马竞选活动的行销策略
RCT的铁则1:妥善建立群组
RCT的铁则2:一定要随机分组
RCT的铁则3:各组的样本数必须充足
欧巴马阵营的实验结果如何?
RCT的具体事例3:电力不足能靠道德解决吗?价格政策有效吗?
短期来看,道德政策与价格政策皆有效果
效果的持续性如何?
实际上该如何进行「随机分组」?
RCT的优点与弱点

第3章 善加利用「界线」的RD设计
如果无法使用RCT该怎么办?介绍「自然实验」手法
RD设计入门:以日本的医疗支出问题为例
着眼于医疗费用自负额变动之「界线」的分析手法
为什么患者人数在70岁之「界线」上不连续地增加?
自负额从3成减少为1成后,门诊患者人数增加10%左右
RD设计需要的假设
从医疗费用自负额的分析来看,RD设计的假设有可能成立吗?
运用RD设计时分析者该做的事:检验其他因素是否在界线上发生不连续的跳跃
什么情况会使RD设计的假设不成立?
RD设计是在界线附近制造近似RCT的状况
RD设计有什么弱点?
RD设计有什么优点?
只因隔着1条界线,南北电价就大不相同?利用地理界线的RD设计
在「地理界线上」RD设计的假设成立吗?
运用RD设计时,检验能否主张「针对某对象的因果关系」十分重要

第4章 善加利用「阶梯状变化」的堆集分析
汽车越大台,油耗规定越宽松?
着眼于诱因呈阶梯状变化的日本油耗政策
只要绘制直方图就能釐清企业行为
堆集分析与RD设计的差异
堆集分析的基本概念
堆集分析的假设
堆集分析的结果:油耗规定导致重量平均增加了110kg
堆集分析的优点和弱点是什么?
堆集分析的事例:所得税的税率会影响工作方式吗?

第5章 运用「数个期间的资料」的纵横资料分析
要不要移居到所得税较低的国家?所得税与移民行动的因果关系分析
运用丹麦个人纳税资料的研究
纵横资料分析的概念
纵横资料分析需要的「平行趋势假设」
关于平行趋势假设,资料分析者可提供的2种资讯
何种情况会推翻平行趋势假设?
纵横资料分析的优点和弱点
纵横资料分析的事例:撒钱实施景气刺激政策只会增加抢购需求吗?

第6章 实践篇:如何将资料分析应用在经商或政策制定上?
硅谷平常都会运用RCT进行商业策略分析
美国联邦政府内部推动的「循证政策制定」
评议会的使命
若要将资料分析应用在商业策略或政策制定上,关键是什么?
成功关键1:与资料分析专家建立合作关系
成功关键2:开放资料
企业与资料分析者的伙伴关系事例1:加州大学、史丹佛大学与大型超市的合作
企业与资料分析者的伙伴关系事例2:加州大学与电力公司的合作
企业与资料分析者的伙伴关系事例3:芝加哥大学与Uber的合作
政府与资料分析者的伙伴关系事例1:芝加哥大学与芝加哥市的合作
政府与资料分析者的伙伴关系事例2:由经济产业省资源能源厅主导的社会系统实证实验

第7章 进阶篇:了解资料分析的不完全性与极限
1 假如资料本身有问题,分析手法再出色也难以解决问题
2 分析结果的「外在效度」问题
3 「出版偏误」与「伙伴关系偏误」问题
4 介入存在「外溢效果」时的注意要点
5 存在一般均衡效果时的注意要点

第8章 给想进一步学习的人:参考书籍介绍
聚焦于计量经济学实践层面的日文入门书
读完入门书后的中阶书(经济学院大学生程度)与高阶书(研究所程度)

后记
引用文献
数学附录
 

图书序言

前言

处处讲求资料分析的时代


  随着以大数据(Big Data)为代表的资讯科技持续发展,各种有关生活及商业的资料皆记录保存下来,人们变得更容易取得大量资料。这种现象对我们的生活带来什么改变呢?

  资讯传播革命带来的其中一个大变化就是,以往只有特定的专业人士必须具备资料分析能力,如今各行各业都开始要求这项能力。

  举民间企业为例。

  业务部或行销部经常能听到这样的对话:

  「我想知道下一期该採用何种广告策略才能提升业绩,你可以帮我调查打过广告的商品业绩资料,分析广告对业绩的影响吗?」

  人事部也不时能听到这样的对话:

  「我想知道该用什么方法才能提升员工的工作效率。只要观察员工的内勤工作时间、外勤工作时间及销售成绩等资料,就能明白劳动时间对销售成绩有何影响吧?」

  其实,不只民间企业产生这种变化。在行政机关或学校这类非营利组织任职的人,接触到的资料同样比过去还多,而且更常需要分析资料,或是利用别人的资料分析结果。

  举例来说,自从日本导入事业分类(译註:针对国家与地方政府的事业进行公开讨论,判断该事业是否有其必要、该由谁负责、预算有无浪费之手法)后,行政机关就经常进行这样的讨论:

  「我们需要分析去年实施的补助金政策成效,并向财务省报告。领取补助金的企业资料应该都有蒐集起来。只要经过分析,就能得知补助金的成效吧?」

  同样的,学校之类的教育现场,近来也开始注重教学评鑑或教育成效评鑑,因此经常进行这样的讨论:

  「为了得知之前使用的教材何者较具成效,我们就蒐集学生的理解程度资料进行分析吧?」

  文科与理科都必须具备的分析力

  从前大家都认为,资料分析属于对数字敏感的理科专业领域。不过,在今后的时代,无论你从事理科或文科方面的工作、处于何种立场,都必须具备资料分析能力。

  光看前面的例子就知道,运用资料分析的人不只技术员及科学家而已。文科人今后也会越来越常遇到必须分析资料的状况。

  此外,如同前述,在职场上即便你不是负责分析资料的那个人,依据「某人的资料分析」做出重要决策的机会同样越来越多。因此,就算你不是分析负责人,一样需要鑑别资料分析结果的能力「以免被某人的资料分析欺骗」。

  大数据时代下不可或缺的分析力

  尽管社会出现这样的变化,仍有许多人不熟悉「资料分析」这个概念。日本的小学至高中都有数理科目,但我们的学校教育却鲜少教导「资料分析」之概念。

  近年来出现一种论调,认为大数据提供许多资料,可解决一切问题。其实,人的判断对资料的处理、分析、解释具有非常重要的作用,这点从本书的内容就能窥知一二。

  最近商业界――特别是IT业――越来越重视分析力(Analytics),并且认为光有大数据依旧很难进行实务改善,剖析大数据使之可用于商场决策才重要。

  尤其在本书聚焦的「釐清因果关系」这点上,就算增加资料量也无法根本解决问题,因此我们必须具备解析资料的能力。

  资料分析的原则与寿司师傅的工作有共通之处

  资料分析的重要原则,与寿司师傅的工作有共通之处。据说要做出好吃的寿司,至少必须注意3个重点。

  第1个重点是,採购优质食材。第2个重点是,具备能发挥食材美味的刀工。即便有了优质食材,如果料理者缺乏技能,不知道该从哪个角度切下食材,品尝时就吃不出食材的美味。第3个重点则是,能否提供眼前顾客所要求的味道或餐点。

  题外话,笔者目前住在美国,当地虽然找得到选用优质食材的寿司店,但要找到「刀工好到能发挥食材美味的师傅」,或是「餐点符合日本人口味的师傅」就不容易了。

  资料分析也可说是一样的情况。

  在资讯传播革命的影响下,大多数的人都能更容易取得好资料(食材)。这是一件很棒的事。可是,如果没学习思考方法,或缺乏「该从何种角度剖析资料」之判断力,分析时就无法发挥好不容易取得的资料之价值。

  此外,就算完美地分析资料,假如分析结果无法回答待解决的课题,便会面临「分析结果明明很精彩,却完全派不上用场」这种本末倒置的情况。

  那么具体而言,分析资料时,需要哪些观念与技能呢?

  如果能有一本专门解说这方面新知的入门书,应该能帮助许多人吧?这就是笔者撰写本书的动机。

  在经商与施策的各种场面上,釐清因果关系是决定成败的关键

  本书为资料分析入门书,聚焦于「广告对业绩有影响吗?」、「实施某政策真能对社会带来良好影响吗?」这类因果关系的探究方法。为什么要聚焦于因果关系呢?这是因为,在有关生意或政策的各种场面上,釐清因果关系对实务家而言非常重要。

  举例来说,前美国总统欧巴马(Barack Obama)2012年竞选总统时,就是因为确切釐清竞选广告策略的因果关系,才能再募到约6000万美元(72亿日圆)的政治献金。IT企业Google则分析网站文字颜色与浏览人数的因果关系,借此提升利润。计程车业的生力军Uber,也是借由釐清价格与消费者行为的因果关系,找出可平衡司机人数与使用者人数的方法。

  近来许多企业都懂得利用因果关系分析,找出最佳的商业策略,这种情况逐渐成为常态。

  除此之外,认真分析因果关系,也可发现立意良善的政策反而造成意料之外的结果,抑或原本以为没什么效果的政策其实产生不小的成效。

  举例来说,日本政府为改善汽车燃油效率而实施的环保政策,其实反而促使汽车重量增加。美国政府为刺激景气而实施的环保车政策,其实只是撒钱政策,无助于刺激景气。另外,对青少年实施的犯罪预防教育,不但抑制犯罪的成效超乎预期,更令人意外的是,这对学业也有良好影响。

  以上这些有关生意或政策的具体事例,只是本书介绍的资料分析运用事例的一部分。只要阅读本书,便可透过各种有关生意或政策的具体事例,了解因果关系分析为何重要、为什么不易分析,以及有什么解决方法。

  本书的目的与结构

  本书不使用数学表达式,而是运用具体事例及视觉化的描写,解说资料分析概念中最基本的「釐清因果关系的方法」。

  当然,要成为资料分析专家,必须具备灵活运用深入的统计学知识与统计软体的能力。不过,从事资料分析的实务工作与教育工作的笔者认为,学习入门知识,亦即「分析眼前的资料时必须注意什么」时,不透过数学表达式理解,而是採「直觉式学习」也很重要。

  因此,希望「学了统计学或计量经济学,却无法喜欢上这门学问」的人,也可以将本书当成课外读物来阅读。不如说,笔者撰写本书的目的,就是希望你在看完之后,能够觉得「原来资料分析这么有趣呀。既然可以做到这些事,我就再多学一点更深入的知识吧」。

  第1章要解说的是,从资料导出因果关系为什么并不容易。前面所举的业务部与行销部的例子、人事部的例子、行政机关的例子与学校的例子,四者的共同点是:资料分析的最终目的,大多为釐清「某个行为(X)对结果(Y)造成何种影响?」之因果关系。

  以行销的例子来说,问题就是「广告(X)对业绩(Y)造成何种影响?」;以学校的例子来说,问题就是「教材(X)对学生的理解程度(Y)造成何种影响?」。第1章将针对「为何这个乍看之下十分简单的问题,难以透过资料分析得到答案」,进行直觉式的解说。

  第2章介绍的是,可百分之百解决「难以导出因果关系」之问题的最佳方法。在医学与经济学等学术领域,这个方法称为RCT(Randomized Controlled Trial,随机对照试验),在商业领域则称为A/B测试。这在医学领域是运用已久、很常见的手法,但在经济学与商业领域则是直到最近才常被使用,可说是最新的手法。这个章节同样採直觉式说明,不使用数学表达式。

  倘若每次都能运用最佳方法RCT当然是最理想的,只可惜因为某些缘故,能够运用RCT的机会很有限。

  假如不能使用RCT,我们该如何导出因果关系、解决问题呢?

  近年来,经济学领域十分盛行这项研究。「自然实验(Natural Experiment)」便是其中一种「善加利用犹如做过实验的状况」,可运用在各种场合上的手法。第3章至第5章便是解说,当我们无法使用RCT时,可以改用何种「自然实验法」。

  第3章介绍的方法是RD设计(Regression Discontinuity Design,不连续回归设计)。

  这是一种只要善加利用世上的「界线」,即使无人进行实验,依然能制造出「犹如做过实验的状态」之方法。这里说的界线十分广义,像地理上的界线、企业调整定价的分界点、可领政府补助金的年龄……等等,全都包含在内。因此,能够运用这个方法分析资料的机会比想像中多。

  第4章介绍的是,最近在经济学研究的推广下开始运用的手法「堆集分析(Bunching Analysis)」。

  报酬或支款大多呈「阶梯状变化」,例如採累进税率的所得税、薪资结构、政府设置的规定值之变动、企业制定价格的方式……等等。只要善加利用这类阶梯状变化,同样能制造出「犹如做过实验的状态」。

  第5章介绍的是「纵横资料分析(Panel Data Method)」,这种手法用于可取得数个期间的资料之情况。

  我们的身边有许多可每月或每年蒐集的资料,例如广告支出、业绩、职员的劳动时间、学生的成绩……等等。此外,我们不只能蒐集个人或单一企业的这类资料,也能蒐集数人或数家企业的资料。第5章即是解说,如何利用「数个期间、数个对象的资料」分析因果关系。

  那么,实际在企业或公共机构任职的实务家,该如何将第2章至第5章介绍的资料分析手法,应用在实务决策上呢?

  第6章即介绍许多国外的具体事例,并探讨如何将资料分析,应用在商业策略或政策制定上。

  本书毕竟是入门书,前6章省略了适合高阶者阅读的内容。本书介绍的方法论都是学术上最新的方法,在实务上也非常有用。不过,任何方法论都有弱点或缺点,了解这些弱点与缺点十分重要。因此,笔者将第7章订为进阶篇,解说资料分析的不完全性与极限。

  假如第2章至第5章介绍的方法全都无法使用,我们该如何分析资料呢?目前经济学领域仍持续研发,可用于这种状况的分析手法(工具变数法、匹配法、合成对照群法、离散选择法、结构估计法等)。可惜,这些手法必须借助数学表达式才能解释清楚,本书就省略不谈了。不过,笔者会在第8章介绍推荐书籍给想进一步学习的人。

  本书是以2014年10月,笔者于波士顿日籍研究者交流会上演讲的资料为基础,添加笔者在芝加哥大学任职时的授课内容与研究内容而成。内容以方法论及具体应用事例为主,针对一般民众解说「经济学的实证分析」领域的其中一部分。说到经济学,大多数的人应该会想到「利用数学表达式进行理论式分析的经济理论」。不过近年来,经济学领域除了研究经济理论外,也很盛行研究「经济学的实证分析」,也就是「使用资料,分析理论预测是否真在现实社会中发生」。如果你在看完本书介绍的资料分析具体事例后,能够觉得「原来经济学与经济理论结合资料分析后这么有意思」,笔者会很开心的。
 
2016年秋季 写于芝加哥
伊藤公一朗

图书试读

第1章 从资料导出因果关系为什么并不容易?

从资料导出因果关系为什么那么困难呢?

本章将使用3个具体例子说明这一点。

第1个例子,是以在企业任职者的观点来看行销策略。第2个例子,是以在公家机关任职者的观点来看政策制定。第3个具体例子,则是从在教育机构任职者的观点来思考。

例1:广告使冰淇淋的业绩增加了?

假设你在贩售冰淇淋的企业任职,隶属行销部。目前公司正在研究,在网站上打广告能否提升今年夏季的业绩。上司想知道打广告能增加多少业绩,于是请你分析资料。

看了过去的资料后,你得知以下资讯:

你的公司曾在2010年,针对某项冰淇淋商品推出网路广告。跟没打广告的2009年相比,2010年的业绩增加40%。图表1-1为资料走势。从这张图来看,业绩似乎因广告的影响而增加。于是,你向上司报告:

「如这张图所示,分析之后可知,受到广告的影响,2010年的业绩比2009年多了40%。」

现在请想一想,为什么你的结论有可能是错的?原因可能是什么呢?

这里的问题是,能否从你的资料分析结果导出:

「推出广告↓业绩因广告的影响而增加40%」

也就是广告与业绩的因果关系(英文称为Causal Relationship或Causality)。

那么,假如2010年的夏季比2009年的夏季还热呢?

实际上,2009年日本的夏季较为凉爽,2010年的夏季则十分炎热。如果业绩在这种情况下增加了4成,就有可能不是受到广告的影响,单纯是因为气温变高,促使消费者想吃冰吧?

除此之外还有其他可能的原因。

举例来说,自从2008年爆发全球金融危机以后,日本就面临消费低迷的情况,但从2010年起消费便逐渐回温。如果业绩在这种情况下增加了4成,就有可能不是广告的成效,单纯是因为整体经济好转,消费者终于愿意打开荷包吧?

从资料来看,广告量在2010年变多,与此同时冰淇淋的业绩也增加了。我们究竟能不能根据这项分析结果,主张「广告带动了冰淇淋的业绩」之因果关系呢?

例2:调涨电价能促进节电吗?

第2个例子,我们来看实施政策的政策负责人所抱持的课题。

假设你是经济产业省的职员,正在研拟明年夏季的节电对策。本次的专案目的,是向上司报告调涨电价能带来多少节电效果。于是,你蒐集过去的电价与用电量资料。

用户评价

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有