推荐序 大数据战略4.0:资源整合‧平台建置‧创意思维‧新创业态 近几年,「大数据」议题备受所有的产官学研等瞩目,不论是个人、企业、产业、社会、政府、教育、国家、乃至全球都深受其影响,乃因大数据本身的特性具有大量性(Volume)、即时性(Velocity)、多样性(Variety)、以及不确定性(Veracity)等4V属性,反映出大数据将对整个人类文明产生冲击。
面对当前大数据所将带来的变化,我们要如何因应呢?如何结合科技、社会科学和人文等各领域的知识,回应知识经济时代的需求,归纳本书十二项主题、三十一位作者群的论述,总结《大数据战略4.0》的四大战略为:资源整合、平台建置、创意思维与新创业态等,以对应4V特征的冲击与挑战。亦即巨量的资料代表着各方的资源,因此首要的战略就是必须要能有效地整合;而基于即时性的挑战,一个高效能且更开放的平台,必须快速建置,是第二项战略;有了这些基础之后,第三项战略就是培植创意人才,也就是让具有创意思维的元素加入整个战略的发展,以有效运用、解读、跨领域的应用大数据所带给我们的多样性特质;第四项战略则是要执行「Big Data+」的策略,创造新创业态的形成。
本书的内容提供了十二大产业的具体案例与理论基础,让读者能充分了解上述四大战略纲领的精义,难能可贵。为因应大数据时代,大学教育的内涵与机制也需要与时俱进,不仅要能随着时代潮流做必要的调整,更必须能透过卓越的学术研究与教学,引领潮流。台大为国内历史悠久、最具规模、学风自由、思想多元、领域均衡的大学,希望能够培育出具备专业领域能力的学生,也期盼学生具有独立思考和创新能力,因为创新才是台湾能够在未来常保竞争力的根基,能为台湾的发展注入更多能量。故本校全面推动创造力与创新能力的教育,培养学生创新思考、解决问题,以及跨领域的创新设计与实作之能力,以成为具社会关怀有使命感的人才,能回馈贡献人类社会,从而提升国家竞争力,让台湾能永续发展。
本书总编辑任立中教授于今年8 月接任本校统计教学中心主任暨统计硕士学位学程主任,便积极投入心力,进行必要之改造。希望本书中面对变革的策略能在校园校务中迅速落实,逐步推动,共同打造本校成为国际学术研究重镇。
杨泮池
台湾大学校长
推荐序
大数据战略4.0 日前台湾大学任立中教授携来一本书籍草稿《大数据战略4.0》,集结国内产学菁英就行销、制造以至于地理、运动共计十二个领域大数据的应用,撰写推动战略,堪称当今国内大数据应用的经典。
要推动大数据的发展,各界莫不摩拳擦掌、跃跃欲试,但也无不面临人才、经验、专业能力匮乏的挑战。我们台湾推动大数据,究竟应该採取什么策略,才能在不落人后,甚至在国际上有一席之地?表面上来看,大数据是资通讯领域一个新的境界,应该是由资通讯来引领风潮。的确,国际上类如Google 等先进业者,因为本身营运所需而开发出不少异于传统资料处理分析的技术与工具,而且以开放的态度在网路上提供各界使用,因而被认为是大数据应用的先驱。而传统的资料处理与统计方法,也有被翻转的迹象,因此我们应该密切追随、急起直追。但是,进一步去想,其实Google 等企业之所以发展出这些技术,是基于解决本身大数据应用(搜寻)的问题。换言之,是被其特有的应用需求所驱动。
大数据的许多应用,其实是具有专属性或地域性的,例如大数据在金融业、制造业的应用,台湾与其他国家会有不同的地方。这些应用,如果我们自己不去推动,其他国家大概也不会有人会替我们推动。因此,在推动大数据的策略上,「应用导向」应该是毋庸置疑的事。而基础技术与工具的研发,也应该是基于充分的应用经验与需求来驱动,而不是一昧追求国际上的热门题目,落入发表期刊论文的迷思。本人在行政院副院长、院长任内推动大数据的政策应用,如要说有一个最重要的心得,莫过于此一体会。
也因此,任立中教授编辑的这本书具有特别的意义。坊间不乏翻译的国际大数据应用书籍,但是要切入台湾应用的精髓,莫如本书。期待读者能借由此书,激发出更多的应用创意,让台湾的大数据应用,能在国际上引领风骚!
张善政
前行政院院长
东吴大学巨资学院荣誉院长
推荐序
大数据是21 世纪的新石油及新生产要素 「大数据」于当今社会的重要性与对产业的影响力,已不可言喻。美国欧巴马政府将「大数据」视为「21 世纪的新石油」,是「挖不完的金矿」。《大数据》作者麦尔荀伯格教授更将「大数据」看成是未来企业除了人才与设备、土地外,最重要的生产要素。《经济学人》也认为「大数据」会「比你更了解你自己」。在日本,软银机器人Pepper 透过大数据的分析,能够辨识顾客表情,与人开心互动交谈。因此有些人将「大数据」譬喻为旧时的指南针,现代的望远镜与雷达,能帮助企业掌舵,激发各种创新、创意与创价的可能,从而创造出更多商机与成功的机会。
「大数据」拥有巨量性(Volume)、即时性(Velocity)、多样性(Variety)以及不确定性(Veracity)等4V属性。数据的「大」与「多」并不重要,端看如何精炼与应用,从4V的特性中萃取其价值。「大数据」开辟了新境界,转变人们对世界的基本理解,环看周遭发生的大变化,就会知道这场巨量资料革命已然开始。企业如果想要保持领先地位,确定未来的商业模式如何改变,决策者必须站在这「大数据」的浪头上,乐观而务实的看待资料革命,因应新局并有效掌握该淘金密码,挖掘这庞大潜藏的价值。
「大数据」的应用是跨领域连结的,无远弗届。最近非常火红的宝可梦(Pokémon GO)寻宝游戏,带动了扩增实境、游戏、文创,以及穿戴装置等相关产业商机,将地理大数据的应用发挥到极致,创造出新的「宝可梦经济学」。
任立中教授主编的《大数据战略4.0》鉅着,终于在千唿万唤中具现,是完遂多年来台湾管理学界一直希望有学者愿意编着一本有理论基础以及台湾产业实务意涵的「大数据」中文书籍。
该书内容分为十二个章节,每个章节涵盖两部分,分别由该领域的顶尖研究学者以及产业专家撰写相关「大数据」的理论与应用内容。包括行销大数据、制造大数据、云端大数据、医疗大数据、会计大数据、零售大数据、社群大数据、农业大数据、金融大数据、电商大数据、地理大数据、运动大数据等。内容丰富,架构完整,辅以经典「大数据」案例说明,让读者看懂了「大数据」的威力与伟大的应用。
例如,伊拉波疫情扩散的监控、PM2.5 的空污感测、交通流量的管控、商情分析与服务系统的建立等,都是地理大数据应用的典范案例。医院利用医疗大数据,可进行疫情和健康趋势分析、强化医学研发与用药精准医疗等功能;Deloitte 透过会计大数据,能有效降低专案承接风险,并利用「审计云」以及班佛定律和视觉化分析,可成功提高审计绩效;John Deere 在IBM 大数据平台系统支援下,分析天气资料(如温度、湿度)以及土壤资料(如酸硷度、特殊元素浓度),预测不同时间点应使用的水量、种子与化肥,帮助农民规划最适当的农耕路径和灌溉方式,从而节省农机油耗和灌溉用水,就是最佳的农业大数据成功应用;Olli 无人驾驶迷你公车可配备人工智慧列车长,与乘客交谈并建议乘客的最佳用餐地点及观光景点,最后Olli 载乘客到最近的捷运站,便是制造大数据最佳的应用典范。
「资料库行销」是「大数据」应用最多与最具代表性的一门学科,本书总编辑任立中教授,二十多年前就率先在台湾大学开设「资料库行销」,是全台湾第一位讲授此一门课程的学者。任教授目前任教于台湾大学国企系,并担任台湾大学统计硕士学位学程暨统计教学中心主任,同时兼任中华应用统计学会理事长、台湾行销科学学会秘书长等职,多年来热衷于教学研究工作,有丰富的学术涵养与实战经验。任教授是专攻行销管理与行销研究的学者,尤其在行销决策模式与资料库行销等主题研究,有非常卓越的成果与贡献,近年来更有两篇非常重要的文章分别发表在Journal of Marketing Research〈JMR〉与Journal of American Statistics Association〈Journal of JASA〉二大世界顶尖学术期刊。在台湾行销学术界,任教授是唯一在该两大期刊发表论述的管理学者,也是第一位在行销三大期刊〈JMR〉发表着作的台湾研究学者,有非常崇高的学术地位。
《大数据战略4.0》是任立中教授与多位杰出学者及产业菁英数年来知识智慧的累积,确实是一本「大数据」的知识与应用宝典,不管是教师、学生或各行各业有志从事「大数据」相关工作的专业人士,都值得投注时间仔细研读,必能有所获得。在此,本人乐意将这本经典好书推荐给读者共享。
陈厚铭
台湾大学国企系特聘教授兼科技部管理一学门召集人
自序
大数据战略4.0:理论‧模型‧预测‧决策 洞人心扉.动人心扉
Read people’s minds. Touch their souls.
当开始筹画本书内容的时候,放在会议桌上的第一个问题就是:「什么是大数据4.0」?有人说数据就是数据,难道0 到9 十个数字还有四种不同的演进或写法?其实自人类有历史以来,结绳记事、干支记数,数据的蒐集、纪录、汇整、分析与应用,是人类文明得以传承、昇华之关键。所以,如果就「数据」的发展历程来看,4.0 意味着四个不同的演进阶段。
大数据1.0:在1970 年代以前,最早期的数据大多是将直接观察到的现象,透过人工的方式加以记录下来。此时的数据量以当今的标准当然是稀少到不足以挂齿,但以当时的条件,其量不可谓不巨大。重点是分析的方法大多是一种描述性的说明。譬如100 位工厂作业员的动作如何影响产量(资料量:100×2)。
大数据2.0:到了1980 年代开始,当人们可以更有系统地蒐集资料时,所需面对的资料除了量体的进一步增加,其复杂度亦逐步攀升。譬如衡量1,000 位消费者生活型态的问项有一百个变数(资料量:1000×100)。此时简单的叙述性统计已无法有效萃取出有用的资讯,而须借助较复杂的统计分析模型(例如:多变量统计分析),才得以帮助决策者获得关键的资讯。
大数据3.0:电脑之发展于1990 年代开始成熟,资料库的建置愈来愈普及。不仅记录了成千上万横断面资料的纪录,更加入了时间的动态性。譬如记录100 万名会员消费者在过去365 天对于1 万个产品的购买交易纪录(资料量:1,000,000×10,000×365)。再譬如一个生产制程中,有3 万个查核点,每个查核点有1 千个变数,每秒均产生一个纪录。一年下来的资料量:30,000×1,000×60×60×24×365=946,080,000,000,000。可想而知,此时单纯的多变量或时间序列的统计分析模型,已不足以掌握此种整合纵断面与横断面资料(简称纵横资料Panel Data)之复杂性。更新更复杂的现代统计理论,结合更快速的电脑计算模拟功能,迅速发展成为大数据推波助澜之关键因素。
大数据4.0:网际网路从2000 年开始,步入全面性的变革,再加上2010 年以后,移动通讯的深化,社群媒体的兴起,使得原本就已经庞大的数字资料库,更加上文字、语音、影像等超级复杂的资料型态,形成了现今所谓的「大数据」现象。然而,不管大数据的膨胀是多么得令人难以想像与掌控,我们要面对的核心问题仍然一样:如何靠更精密的统计分析模型,以及更快速的计算功能,以协助决策者获得所需之关键的讯息。
因此,除了上述从数据的演化阶段说明大数据4.0 之意义外,我们对于如何协助决策者获得所需之关键的讯息,需要一个4.0 版的战略框架的角度,来说明「大数据战略4.0」的新义。这个框架涵盖了四大构面:理论、模型、预测与决策。这四大构面是我们作者群几次编辑会议中,对于有关大数据纷纷扰扰、形形色色的标签、口号下,反覆讨论之后,所归纳整理出它们的经与纬。首先,「大数据战略」之目的为何?归根结底就是要解决问题,解决决策者所面对的问题。而任何解决问题的架构流程,一定是先有一个理论基础,告诉我们问题背后的逻辑与思路,然后将之建构成一个模型,通常是统计模型。在模型中所定义的变数以及变数与变数之间的关系,便是反映或呈现这套逻辑与思路。模型建立好之后,透过检验与实证,便可进行模拟与预测。决策者再根据预测所得之结果进行最终的决策。而在实务运作上,大数据战略的第一步是先问我们所需做的决策是什么?为了做这个决策,我们必须预知可能的结果以便于评估其后果;而为了能得到这个预测的结果,需要决定採用何种模型。而在建构模型的时候,要非常清楚与掌握有那些理论可以支持与解释。
最后,我们上述宏观大框架的层次,聚焦至微观的资料的特性。大数据4.0 代表着未来我们在分析任何的数据,有四大特点或趋势值得注意。
1. Not all data is created equal. 每一个资料点对于分析关键讯息时,其贡献度(或重要性)并不是相同的。譬如有些人的意见比较重要,或是越靠近目前时间点的资料,在分析上,与其他的资料点就不能等量齐观。
2. Not all data comes from same distribution. 传统统计的基本假设均设立所有资料来自同一个母体时,便认为这些资料服从同一个分配(譬如常态分配)。但是,由于大数据的庞杂性,使得传统模型的可靠度大幅降低。
3. Not all data can be observed. 所有可以被观察、被记录的资料,往往是表面的一种现象。而真正对于决策者有用的资讯,往往是隐藏在这些资料的背后。譬如消费者日常购买的食品交易纪录便隐藏着热量消耗的健康生活型态讯息。
4. Not all data is objective and unbiased. 在大数据中,并不是所有资料均是客观的和无偏误的。最明显的例子是舆情分析中的文字探勘技术。如果资料本身就存在可能的偏误时,任何精密的分析可能都徒劳无功了。
以上我们从三个方面:四种数据演进的历程、四个数据战略框架的元素、以及四项大数据分析特质的挑战;定义4.0 之意涵。因此,本书以「大数据战略4.0」为标题,总揽了大数据在十二大产业的理论、模型、预测与决策的探讨。希望读者能以此观念架构阅读各章节之内容,以便于吸收、消化。达到透视大数据之内涵,有效掌握其隐含之资讯,提升决策品质之目标。
唯有洞察人心于前,才能动人心扉于后。
任立中
台湾大学统计硕士学位学程暨统计教学中心主任
台湾大学全球品牌与行销研究中心主任
台湾大学管理学院国际企业学系行销教授
台湾行销科学学会秘书长
台湾行销科学学报总编辑
中华应用统计学会理事长