很简单,大数据的意思就是数据量很大,作为统计学人,不怕有数据就怕没数据。但是现在信息爆炸的时代,传统的统计方法理论可行,但未必可操作。譬如最小二乘回归,方法很简单,但是对于大数据而言,你可能没有那么高的硬件进行支撑,怎么办?先对大数据进行压缩提炼,选出对你研究有价值的数据,然后再进行统计分析,就避免了硬件上的障碍,同时也避免了耗费太多的时间,比如有些统计算法随着样本增加时间呈指数既增加,等你结果跑出来,项目早结束了。这也就是为什么做大数据的比较牛逼的都是行业性人才,因为他们比你有更敏锐的直觉,能够辨别出有用的信息。你可以看一些数据挖掘方面的文章,好的文章方法都很一般,你我都学过,但是他们的突破口更好。