Hamlet邵e 发表于 2013-4-1 16:14 
但是还是有一个“度”的问题不是么?譬如图1,如果没有算全数据,我怎么知道在2500000附近开始,即使继续增 ...
哈哈,这篇博客不是小弟写的,说这是小弟的思考过程可不敢当。这个是从Revolution Analytics 的官方博客转来的。
对于您所说的“百亿亿次计算的时代即将到来的今天,算法和硬件可以使得计算不再成为瓶颈”, 我并不认同。的确,现在的技术发展使得我们可以更高效的使用计算资源,而且计算成本也在持续降低,但是离所谓“不再成为计算瓶颈”还差得太远了。因为从事的相关工作原因,不谦虚的说,小弟也算是长期使用真正意义大数据的人(全世界只有Google,Facebook, Microsoft和 Amazon的数据可以真正达到这种级别)。在这样的数据上,即便是目前最先进的MapReduce架构(甚至是高度定制化和优化过后的),依然无法满足很多基本的建模和估计,更不要说作为一个公用的体系供一般数据分析者使用了。最简单的一问题,估计一个变量中位数的方差,这个在理论上已经基本得不能再基本的变量,在实际应用中都是很难做好。很多最高会议和期刊上都在做这个基本问题的讨论 (例如,michael jordan 的 bag of little bootstrap),而且实际上到现在都没有一个可以广泛使用的高效的方法 (比较可行的方式都使用了类似subsampling的方法逼近bootstrap的结果)。近两年愈加热门的Deep Learning就更不要提了。在我看来,处理大数据时懂得做subsampling是一个十分重要和基本的思想。