北大光华王汉生（高维数据分析，搜索引擎营销）5月17日在线访谈

holybadger

2013-5-17 10:34:56

replysoon 发表于 2013-5-16 11:06
王老师，您好！
请你谈谈如何才能成为一个出色的数据科学家？需要哪些素质和学习哪些知识？谢谢

（1）大规模的数据采集整理能力（爬虫+SQL+API）
（2）统计模型能力（统计、数学、优化）
（3）商务理解能力（营销）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:36:23

09mjzhang 发表于 2013-5-16 12:18
王老师：
您好！地震给人们近乎毁灭性的的破坏，数据分析可否在其中扮演重要的作用？数据分析如能提 ...

（1）我不相信任何人可以预测地震。如果可以做到50%的准确性，那可了不得。全世界都会感激他。
（2）我认为，我们应该预测的是：如果地震来了，会产生什么样的灾难？这可以指导我们：如何设计建筑物的抗震级别，如何设定地震的应急机制等

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:37:25

quantstat 发表于 2013-5-16 12:36
王老师，

您好！了解到您对高维数据很有研究。我们知道，统计在金融中有很广泛的应用，比如说高频交易， ...

首先，我对这方面的了解是非常有限的，这不是我的主要研究方向。但是，我的有限了解是：理论研究和时间差距很大很大。做理论研究的人，我相信，绝大多数都没有和业界合作的任何经验。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:38:12

hgswz 发表于 2013-5-16 12:40
定性分析和定量分析，分别采用什么工具平台好，谢谢

呵呵，可能没有最好的。只有常用的：

定性分析，我觉得只能是你，依赖你的知识。
定量：SAS，SPSS, R等

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:40:49

zhouguobin 发表于 2013-5-16 13:34
王老师，您好，我是从事电子商务数据分析的，也一直利用好人大经济论坛这个平台，想问下，搜索引擎方面是怎 ...

（1）首先明确你的目标。如果你是在线销售，当然应该是转化，或者销售额，或者利润。如果你关注的是品牌，也许是点击，展现？有时候，也可能是电话量。

（2）在确定KPI的前提下，沿着消费者搜索的路径，逐一分析。例如：某关键词，搜索量多少？点击量多少？为什么点击率高？为什么第？这和该词是通用词、竞品词、还是品牌词，是否有关系？点击后，去了那个页面？跳出率如何？页面匹配如何？还有创意、描述等。这其中，需要有很好的文本分析的能力。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:41:25

liuchao449 发表于 2013-5-16 14:27
老师您好，我是学贝叶斯的，您能给推荐几本初学者看的文章吗？

抱歉，俺不是这个专家。建议你可以问问我的同事：张俊妮老师，她可是这方面的专家：-）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:41:48

dnq 发表于 2013-5-16 14:50
王老师，您好，请问目前在高频数据分析用于股市的分析中，有哪些成果？今后可能地方向在那些方面？

抱歉，这不是俺的专项，知之甚少：-（

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:44:01

450847594 发表于 2013-5-16 14:57
王老师，
您好，
1）您能否分别谈一下统计学习与计量学习不同阶段的学习方法和注意事项，或者是什么标志性 ...

1）我认为，不管处在那个阶段，搞明白自己分析的意义都很重要。要有一个超出统计计量的视野，看看业界在干什么？看看相关计算机、营销在干什么？然后才知道自己处的定位。

2）我相信数据挖据和基于理论推导的模型都会重要。前者更强于预测，但是后者能够帮助我们理解经济理论，解读背后的故事。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:44:38

太平洋中的树发表于 2013-5-16 15:04
现在的经济金融领域越来越重视数学模型的应用，那么请问：经济学作为一门社会科学，到底是应当注重她的人文 ...

注重人文性，但是让统计分析扶上马，送一程。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ruihuizhou

2013-5-17 10:45:58

holybadger 发表于 2013-5-17 10:26
同学，谢谢您的信任。但是，很抱歉，我自己对动态规划和随机过程都不懂：-（

非常感谢老师的真诚回复

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:46:12

jimfang9 发表于 2013-5-16 19:09
王老师，我想问下主成分回归分析中的变量选择问题，选择多少个合适，是不是把能放进去的变量都放进去？

这是一个学界也没有完全高明的问题。肯定不能全放，全放就是去主成分回归的意义了。
但是，放几个呢？有人说：方方差大的几个，有人说放相关性高的几个。哪种方法
更好呢？鬼才知道。没准您能给出一个答案？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:47:49

jimfang9 发表于 2013-5-16 19:09
王老师，我想问下主成分回归分析中的变量选择问题，选择多少个合适，是不是把能放进去的变量都放进去？

这也是一个好问题。首先，这是一个在学术界也有争议的问题。没有唯一的答案。但是，肯定不能全放进去。全放进去就失去了降维的意义。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:53:09

megan78 发表于 2013-5-16 19:31
王教授您好，现在做横向课题时经常会发生数据处理结果与预期大相径庭，我个人觉得数据收集的质量特别重要， ...

您说的太对了，garbage in garbage out，数据质量太差，神仙也救不了。
如果数据质量好，恨不得算个均值就解决了很多问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:54:36

megan78 发表于 2013-5-16 19:31
王教授您好，现在做横向课题时经常会发生数据处理结果与预期大相径庭，我个人觉得数据收集的质量特别重要， ...

您说的太对了，garbage in garbage out，数据质量太差，神仙也救不了。
如果数据质量好，恨不得算个均值就解决了很多问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:55:05

jimfang9 发表于 2013-5-16 19:09
王老师，我想问下主成分回归分析中的变量选择问题，选择多少个合适，是不是把能放进去的变量都放进去？

这也是一个好问题。首先，这是一个在学术界也有争议的问题。没有唯一的答案。但是，肯定不能全放进去。全放进去就失去了降维的意义。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

holybadger

2013-5-17 10:58:31

楚韵荆风发表于 2013-5-16 19:33
强烈的支持这种活动。我也想请教一下王教授：
曾经有幸听过您在我们学校做的报告。
最近拜读了您写的几篇 ...

（1）据我个人有限的知识，大多数文章认为超高维指的是变量个数呈指数阶增长，而非多项式阶，即p=O(exp(n^c))，这里c>0，也就是通常的NP问题，而在理论的证明中却限制c满足:0<c<1, 然而，有文献称log(p)/n 趋于0（即0<c<1的情形）只属于高维情形，而非超高维，在理论上如何真正做到c>1或者c>>1的情形？

c是否大于1，根本不重要。这也就是一个理论上的说法，说：您看啊，我可以让变量个数很高很高哦。在真实的数据中，鬼才知道c=？？. 所以，千万别钻牛角尖，dont' take it too serious.

（2）对于p>>n，通常是对变量先进行筛选(screening) 然后在进行估计，现在是否能够办到对于超高维数据同时进行筛选和估计？

理论上总是可以的，值得去努力一把。但是，和先Screening再Selection相比，改进的意义多大？

（3）就目前您所了解的研究现状而言，您能否介绍一下处理超高维数据已经出现了哪些方法(除了SIS, Forward regression)

这方面除了很多新的工作。可以看看：jianqing fan and runze li 的主页，很多工作。

（4）有文章提到，通常在模拟中表现得非常好的方法却在预测上并没有表现出优势，请问这主要是哪些原因造成的？这是否可以说明模型的sparsity assumption在实际数据中并不能很好的被满足。

because: every model is wrong:-)