全部版块 我的主页
论坛 经济学人 二区 高级会员区 学者专栏
2013-5-16 16:38:32
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 17:24:51
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 18:19:32
学习,学习
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:08:26
成果颇丰
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:09:45
王老师,我想问下主成分回归分析中的变量选择问题,选择多少个合适,是不是把能放进去的变量都放进去?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:28:04
好多论文啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:31:20
王教授您好,现在做横向课题时经常会发生数据处理结果与预期大相径庭,我个人觉得数据收集的质量特别重要,而后期的处理现在越来越复杂反而会影响数据对事件的支撑作用,请问您的看法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:33:42
强烈的支持这种活动。我也想请教一下王教授:
曾经有幸听过您在我们学校做的报告。
最近拜读了您写的几篇超高维的文章,收获很大,尤其是方法的思想上,受益匪浅。
(1)据我个人有限的知识,大多数文章认为超高维指的是变量个数呈指数阶增长,而非多项式阶,即p=O(exp(n^c)),这里c>0,也就是通常的NP问题,而在理论的证明中却限制c满足:0<c<1, 然而,有文献称log(p)/n 趋于0(即0<c<1的情形)只属于高维情形,而非超高维,在理论上如何真正做到c>1或者c>>1的情形?
(2)对于p>>n,通常是对变量先进行筛选(screening) 然后在进行估计,现在是否能够办到对于超高维数据同时进行筛选和估计?
(3) 就目前您所了解的研究现状而言,您能否介绍一下处理超高维数据已经出现了哪些方法(除了SIS, Forward regression)
(4) 有文章提到,通常在模拟中表现得非常好的方法却在预测上并没有表现出优势,请问这主要是哪些原因造成的?这是否可以说明模型的sparsity assumption在实际数据中并不能很好的被满足。

谢谢!




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:34:46
支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 19:58:08
王教授,你好!我想问问就是如何处理变量比样本多的时候的数据情况,比方说经济社会方面的评价分析一般都会涉及到很多评价指标即变量,但是可用的样本数据又相对比较少,这种情况下怎么对数据进行降维和评价分析处理,谢谢王教授的指点!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 21:42:44
老师 您好 ! 现在都在 讲大数据时代,作为一个 学习经济学的学生, 您觉得未来的用什么软件 是未来 在大数据时代 较为 适合的分析工具? 是R语言吗? 请您推荐 学习方法?应对大数据时代
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-16 21:50:02
高维数据很火爆啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 00:23:05
支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 06:57:13
王老师:
一般而言的研究,在數據完成運算後,真對敘述統計數據的訊息之外,是否需要真對數據訊息對我們實務界存在真實世界的寒意提出延就說明,其重要性何者為重?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 08:33:35
牛人膜拜。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 08:47:32
路过看看,了解一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 09:03:31
支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 09:06:25
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 09:30:41
王老师:
      您好!
      请教您,做高频数据分析有哪些统计软件比较适合?
      您认为哪些方面的学术研究更适合高频数据分析?
      另外,单从高频数据中发现的数据规律,一定具有理论价值吗?
      谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 09:39:16
王老师,您好!现在火热的大数据浪潮一波接着一波,同时也对统计工作提出了更高的要求。一方面我们利用计算机、网络实现统计,另一方面,人还是要扮演重要角色。您觉得“大数据”如何收集与利用,才能真正的发挥效用?传统的统计学方法,又该如何应对高数据量的统计要求?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 09:52:24
牛人,鉴定完
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:12:11
资料狂人 发表于 2013-5-16 08:38
坛友airways1:
王教授您好,能不能解释一下到底什么是dimension curse?对于线性回归来说,要注意这个问题 ...
您好。Curse of Dimensionality指的是数据的维度太高了。传统意义上,如果我们做一个回归模型,样本量可能有200个,解释性变量有10个,那么很好计算。但是,现在的情形是,样本量还是200个,解释性变量可以有10万个,那么OLS就不再存在了。在这种情况下,如何做最小二乘估计,或者泛泛地,如何做回归模型,都是非常有挑战性的问题。似乎是一个诅咒(Curse), 紧紧地限制了传统的统计方法的应用范畴。这就是Curse of Dimensionality
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:15:45
资料狂人 发表于 2013-5-16 08:38
坛友大师坑:
王老师,您好,读过您写的论文《超级市场零售商品的购物篮分析》,您用高维0-1变量聚类方法对 ...
您好,谢谢您对该文章的兴趣。该方法在模型层面需要的输入是一个高维度的0-1变量。其中每一个变量标识某客户是否购买了该产品。那么,任何应用场景,如果可以被规范成为这样的数据结构,那就可以应用该文中的方法。对您所说的农产品问题,我不是很熟悉。如果您的业务可以被规范成:某某某购买了什么产品,那么就可以应用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:19:29
看上去很难的问题,往往都有线索可寻的。抽丝剥茧就会慢慢了解答案所在,不要一开始就畏惧困难。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:21:24
wanggc023 发表于 2013-5-16 08:55
王老师,您好!
现在big data 在社会上引起了广泛的关注,包括统计学和机器学习,计算机等领域的很多专家。 ...
这是一个很好的问题。

(1)首先,我认为“Big Data”是一个被过度爆炒的商业概念,就像是房地产泡沫。所有的企业、科研单位,都在从对自己有利的角度解读什么是Big Data。我认为数据分析,就是数据分析,有不同的情景,不同的问题。That's it。跟数据是否Big or Small,没多大关系。

(2)但是,现在的数据确实和几十年前的不一样的,对传统的统计方法有挑战。主要表现在:维度高了,结构复杂了(网络数据),非结构化了(文本,图形,声音),等等。这些对传统的统计分析是有挑战的。

(3)我认为,现在社会需要的数据分析者需要具备三种能力:第一、大规模数据采集整理的能力(爬虫、SQL,API),第二、数据分析能力(数学、统计),第三、商业理解的能力(营销、管理、经济学)。这三个能力被普通大学割裂在三个不同的学院中,无法发挥集体优势。而统计学专业对这方面的研究是落后的,原因是:我们不具备大规模数据采集和整理的能力。我们输在起跑线上。因此,跨学科的合作,非常必要。我本人的研究团队中,就一定要有计算机专家。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:24:36
zhaoyongmin_nju 发表于 2013-5-16 09:40
王老师:
    您好,大数据时代,数据建模和处理的重要性是不言而喻的,想向您请教一下,未来数据智能的发 ...
这也是一个非常好的问题。我自己学数理统计出身,我曾经天真的认为:一切数据分析都可以全自动,全部由数据驱动,可以把定性知识抛在一边。但是,现在看来这是多么可笑。好的分析一定是定量+定性结合的。举一个例子,我们能否通过对海量网站的文本分析,把他们的行业特征找出来?如果完全靠机器学习,这里涉及到大量的分词,而且分词中,如何通过数据识别:玫瑰 和 百合 都是鲜花就是一个超级难的事情。但是,我们有定性的先验的关键词库啊,为什么不用呢?有了这样的定性知识指导,剩下的机器学习变得更加有效,更加准确。因此,定性分析对定量分析很重要!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:25:45
3862161 发表于 2013-5-16 10:05
王老师:
   您好!我拜读了您的一些文章,您处理的更多的是线性回归中变量选择的问题,请问关于非线性回归 ...
呵呵,这方面的文章很多。有兴趣可以参考一下Jianqing Fan 还有 Runze Li的主页。他们有很多相关文章。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:26:48
ruihuizhou 发表于 2013-5-16 10:09
您好,王老师,我是中南大博一的,希望好好的学习《动态规划》和《随机过程》,要求掌握的程度达到能够构建 ...
同学,谢谢您的信任。但是,很抱歉,我自己对动态规划和随机过程都不懂:-(
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:31:58
wanggc023 发表于 2013-5-16 10:12
王老师,您好!
我再问一个具体的问题,我知道您写过很多好的降维方法的文章,我也拜读过。过去20年,多元 ...
您说的问题都很到点上。

(1)国内外对超高维的数据降维一直都有人关注的。这方面Dennis Cook, Lexin Li还有国内的朱利平老师都有非常好的工作。主要的挑战就是矩阵的逆。

(2)我自己不再做SDR了,原始就是你的第二。我估计出 一个SDR空间,然后呢?请问然后该怎么办?我能interpret吗?不能。我能预测吗?我看也不好说。如果我的目标是预测,我为什么不直接瞄准我的预测目的去,而绕着一个大弯。

所以,我对SDR的整个方向是怀疑的,不确信的。这也解释:为什么理论工作那么多,那么优美,真实世界有多少人用了?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-5-17 10:34:06
lssmy 发表于 2013-5-16 10:42
王老师:
您好,数据的分析最后的目的都是为了预测,以便实现更好的决策,最近美国研究人员,利用对google ...
前几天,我在微博上转过一个类似的报道。很多朋友给了有趣的反馈。其中一种意见很重要,那就是:怀疑!有人直接指出,某Twitter分析为基础的基金已经关门了!@#¥!#@

我对这件事情的基本态度是:(1)我不相信任何统计分析可以持续地预测市场走势,这和市场有效性的假说矛盾;(2)但是,我相信社交媒体的分析,也许可以预测volatility,这也许才是努力的方向。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群