hbhjhf 发表于 2013-4-26 09:01 
如今big data 炒的很火,无论政界、商界、学界还是公众,都高度关注。
张教授兼具计算机与统计背景,必然对 ...
呵呵,和大数据沾边的路过。。实际上我感觉做大数据不是为了巨量而巨量,而是为了小量而巨量,研究巨量的目的是重新回归小量。。。之前做过的一个东西,数据量几十亿,最后各种方法挖掘,得出的结论就是几个图表和几十个数据而已。但是这并非就是意味着传统的sample然后研究的方法就有问题,很多情况下,其实依然有效。
那些遵循大数收敛的我觉得就没有必要非要搞海量,而一些较为独特的方面,不得不对全部数据或者巨量数据挖掘——否则会丢失重要信息的,就不得不进行,但是在得到了相关结论之后,就会发现可能在海量数据中,依然存在主要和次要部分。。例如我之前做的那个东西,在进行海量数据挖掘之后,证实了其中很多数据并没有那么重要,或者不会对结果带来本质上影响,那么今后在研究类似问题的时候,在需要快速或者定性得到结论的时候,就可以只对主要部分进行研究,也就是说,通过海量数据研究得到了研究对象的内在一些结构,这些结构未来可以指导我们更加有效的抽样而不失去总体特征,加快研究效率,因为有些金融上的东西,time is money ,做大数据研究等不起。。