[cousera数据科学]The Data Scientist’s Toolbox 第三课

2364

收藏 2014-05-15

开始统计的东西了

1.不同的数据科学问题
Descriptive: 描述统计，单变量的如果连续变量就看hist、box之类，离散变量就table，barplot，感觉这部分就是做做统计图
Exploratory：探索性模型，相关性不代表因果!相关分析，各种维度table，因子分析，聚类，对应分析等等应该在这里吧！
Inferential：推断统计，用小样本推测整体情况，抽样调查，或者互联网常用的A/B test，证明显著性差异的都在这把
Predictive：预测，用X预言Y，模型，这个就多了。个人认为预测跟因果的差别在于预测更强调可用性，而因果偏向理解。
Causal：一个变量的变化对另一个变量的影响，因果分析？？？
Mechanistic ： understand the exact changes in variables that lead to changes in other vars for individual objects
还有比如关联规则这样的玩意算是exploratory还是predictive啊？关于这个我问了lecturer，回复如下：
Well, what I learned from my experience in constructing models from data is that you can back-predict the contents of your data set virtually perfectly if your regression only has enough terms in it, as with spline interpolation. With modeling, you have to test your extra terms to see if they are significant. You can't figure out the nanometer-scale lattice structure of a crystal using radio waves, and using x-rays to count the number of cows in a pasture is doomed to an equally-silly failure.

The take-away from our lecture is in that shaggy old aphorism about how prediction is difficult, especially of the future.
。。。尼玛完全不懂，谁来给解释一下呗？

2.关于大数据
观点有启发：大数据就是依照现在的软硬件技术条件不太容易处理的数据；
随着处理数据能力的增长，原来的大数据以后可能就算不上了
比如在hadoop出现之前的日志数据就算big data。
big data这个概念本身我就觉得挺扯的。。。跟互联网思维一样烂大街了

3.实验设计。。。。。。写了一大堆忘保存了，=_=
总结一下吧：
好的实验设计：
有重复
有效测量
得到的结论是你关心的。。。
清晰可理解
预测不是推断统计
但是两者都很重要
小心data dredging

这个概念的说明：
http://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
通常作为与数据仓库和分析相关的技术，数据挖掘处于它们的中间。然而，有时还会出现十分可笑的应用，例如发掘出不存在但看起来振奋人心的模式（特别的因果关系），这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系，在统计学文献里通常被戏称为“数据捕捞”（Data dredging, data fishing, or data snooping）。

数据挖掘意味着扫描可能存在任何关系的数据，然后筛选出符合的模式，（这也叫作“过度匹配模式”）。大量的数据集中总会有碰巧或特定的数据，有着“令人振奋的关系”。因此，一些结论看上去十分令人怀疑。尽管如此，一些探索性数据分析还是需要应用统计分析查找数据，所以好的统计方法和数据数据的界限并不是很清晰。

更危险是出现根本不存在的关系性。投资分析家似乎最容易犯这种错误。在一本叫做《顾客的游艇在哪里？》的书中写道：“总是有相当数量的可怜人，忙于从上千次的赌轮盘的轮子上查找可能的重复模式。十分不幸的是，他们通常会找到。”[3]

多数的数据挖掘研究都关注于发现大量的数据集中，一个高度详细的模式。在《大忙人的数据挖掘》一书中，西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式，用来发现一个数据集当中两个元素的最小区别，它的目标是发现一个更简单的模式来描述相关数据。