阿里巴巴集团内部使用,效果显着
大数据的统计计算是进行资料探索和分析採撷的基础。在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到资料探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。
本书作者从统计计算的演算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。作者提出一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法,开发的资料分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显着效果。
专家推荐 本书提出了一套适合于分散式运算的统计计算方法,透过对一些基础统计量的计算,可获得有关资料集更全面的统计资讯,进而可以进行进阶的统计分析,例如,区间估计、线性回归、主成分分析等。可以说,本书从统计计算的角度,整理出一套对大数据分析有实用价值的统计理论,并形成参考程式。-潘爱民 阿里云首席架构师
相信大多数从事数值计算的技术人员都读过一系列叫作Numerical Recipe in C/Fortran/Java 的书。眼前这本书或许可以叫作Numerical Statistics Recipes in Java,和那个系列一样,对重新快速学习和使用数值统计演算法来实现资料分析应用的读者来说,这本书是一本不错的入门手册。-何万青 博士 英特尔技术计算集团技术计算架构师