全部版块 我的主页
论坛 经济学人 二区 高级会员区 学者专栏
17118 75
2012-03-22
热烈欢迎中国人民大学王星教授于3月30日15:00接受人大经济论坛的在线访谈活动。大家现在可以在下面回复提问。
欢迎大家热烈提问。


PS:的问题提问者会获得50论坛币的奖励
王星老师端午节期间会在中国人民大学开设数据挖掘现场班,欢迎大家参加:)现在接受预报名!!!
联系方式:
QQ:1143703950 点击这里给我发消息
Tel:010-68478566
在线答疑帖子:https://bbs.pinggu.org/forum.php?mod=viewthread&tid=1404653&extra=


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-3-22 11:08:09
各位坛友大家好,人大经济论坛荣幸地邀请到了知名学者王星教授接受论坛在线访谈。

王星,中国人民大学统计学院副教授, 现任概率论与数理统计教研室主任。

主要研究兴趣:复杂数据问题的统计方法和技术研究
涉足领域:网络挖掘、金融分析、文献评价、数据质量等
专业兴趣点:数据挖掘,统计机器学习,非参数统计,应用数理统计
专业咨询:R\S-PLUS、SPSS\Clementine、STATISTICA、SAS\EM等统计分析教学与科研,长期从事数据分析咨询、培训
专业信念:大自然留给人类很多迷惑和问题,有效的数据是通向问题答案的线索和证据,统计的作用是试图还原数据和问题答案的本来关联。

主讲课程(2008年后)
本科生:非参数统计、数据挖掘导论
研究生:数据挖掘与统计机器学习,数据挖掘讨论班

教育背景
1990-1994年 北京师范大学数学系学习,1994年6月毕业获理科学士学位;
1994-1997年 北京师范大学数学系学习,1997年6月毕业获理科硕士学位;
1999-2003年 中国人民大学统计学系学习,2003年6月毕业获经济学博士学位,博士论文《关联规则的序贯抽样在线算法研究》。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-22 11:08:23
主要科研经历
1997年-1998年,参加教育部高考命题组项目"高考成绩的多元统计方法评价研究";
1998年-1999年,参加教育部社会科学基金项目"ZF统计数据的质量评价与研究";
2001年-2005年,主要成员,参加教育部重大攻关项目“现代统计学在数据挖掘中的理论与应用研究”;
2004年,主持横向课题“取消奥运的微观经济研究”;
2006年,主要成员,参加教育部重大攻关项目“空间统计方法研究”;
2005年-2006年,主要成员,参加校级精品课程——非参数统计教学项目;
2006年-2007年,主要成员,校级精品课程——数理统计教学建设项目;
2008年,主要成员,参加教育部重大攻关项目“ZF数据质量的数据挖掘方法与技术研究”项目;
2008年,主持校级项目,“机器学习若干问题研究”项目;
2008年,主持横向项目,“随机分析若干问题研究”项目;
2008年,主持211财政金融规划项目统计学院子项目,“金融分析数据库开发”项目。

海外学术访问交流经历
2001年3月-6月,台湾中央研究院和台湾辅仁大学访问交流;
2006年1月-2007年1月,美国加州伯克利大学统计学系和电子工程系访问交流;
2009年5月,韩国成均馆大学访问交流.

论文(2001至现在)
宋涛、王星(2001),数据挖掘在ZF统计中的应用,海军工程大学学报,2001, 05
王星等(2002),统计学与数据挖掘,统计与信息论坛,2002 , 01
赵绍忠、王星(2002),聚类分析在数据挖掘中的应用,统计与信息论坛,2002 , 04
王星、袁卫等(2002),用统计学构筑企业的知识管理系统,中国统计, 2002, 10
王星等(2004),数据挖掘在保险业中的作用,统计与精算,2004 , 06
王星(2004), 关联规则中的序贯抽样算法研究,统计学博士论文内容摘要(2002-2003),中国统计出版社,2004, 10: 83-90
郝丽,刘乐平,王星(2004),数据挖掘在体育统计中的应用,东华理工学院学报(社会科学版),2004,02.
王星(2005),序贯抽样算法在关联规则计算中的应用研究,计算机工程与应用, 2005, 01
王星,谢邦昌(2005),连续属性决策树所建立的垃圾邮件识别器的稳定性研究,统计研究,2005 , 02
王星(2005),对一类序贯抽样关联规则算法的改进与分析,统计与决策(理论版),2005, 03
王星(2007),统计机器学习方法进展,第五届数据挖掘与现代企业商务智能会议,中国人民大学,2007, 03
王星(2008),稳健统计机器学习,第六届数据挖掘与现代企业商务智能会议,中国人民大学,2008,04
Xing Wang(2008),(Invited speaker) Asymptotic properties for some Lasso-type estimators: Parametric case, 2008 Beijing International Conference on Machine Learning and Data Mining, Beijing, 2008, 06
王星(2008),老百姓如何使用食品安全数据,中国统计,2008, 10
王星(2009),Walsh平均中位数估计在Gamma分布中的探讨研究,数据分析,2009, 03
王星(2009),多值问题Cochran检验的推广与分布探讨,统计学评论,2009,04
Xing Wang, Xin Wang, Zhaonan Sun,Comparison on confidence bands of decision boundary between SVM and Logistic Regression, Intl Conf on Networked Computing, Advanced Information Management and Digital Content and Multimedia,(The Grand Hilton Seoul), 2009. (IEEE CS) ISBN: 978-0-7695-3769-6, Pages 272-277.
Yuan HUANG, Xing WANG, Ben-Chang SHIA, Efficiency and Consistency Study on Carma, Intl Conf on Networked Computing, Advanced Information Management and Digital Content and Multimedia, (The Grand Hilton Seoul), 2009. (IEEE CS) ISBN: 978-0-7695-3769-6, Pages 589-594.
王星(2009),基于罚聚类和隐马氏链的消费行为预测模型,第七届数据挖掘与现代企业商务智能会议,中国人民大学,2009, 06
Guilherme V. Rocha, Xing Wang, Bin Yu (2009) Asymptotic distribution and sparsistency for l1-penalized parametric M-estimators with applications to linear SVM and logistic regression. http://arxiv.org/abs/0908.1940v1

专著与教材
王星(2005),非参数统计,中国人民大学出版社,2005, 01.
袁卫,王星译(2005),数据挖掘:客户关系管理的科学与艺术,中国财政金融出版社,2005,01
王星译(2007),行为统计学,中国人民大学出版社,2007, 07.
王星(2008),非参数统计,清华大学出版社,2009, 01.
金勇进,蒋妍,李静平,王星 (2009),数字中国60年,人民出版社,2009,09.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-22 12:28:33
支持一下!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-22 14:16:17
户表用户交费行为探索
选取2012年1月11日邮局交费电子对账文件02120111.DZ。交费金额246384.1元。交费笔数为1541。通过软件分析,交五十元水费403笔,交100元水费有606笔。说明用户交费行为大都交100元或50元。



案例处理摘要
        案例
        有效        缺失        合计
        N        百分比        N        百分比        N        百分比
V6        1547        99.6%        6        .4%        1553        100.0%




描述
        统计量        标准误
V6        均值        159.660        21.9457
        均值的 95% 置信区间        下限        116.613       
                上限        202.707       
        5% 修整均值        95.711       
        中值        100.000       
        方差        745059.215       
        标准差        863.1681       
        极小值        1.0       
        极大值        22000.0       
        范围        21999.0       
        四分位距        50.0       
        偏度        20.301        .062
        峰度        449.210        .124

茎叶探索图

频率        莖和叶

17.00        0 .  115
33.00        1 .  0005&
73.00        2 .  0000000000&
60.00        3 .  000000005&
11.00        4 .  0&
403.00        5 .  000000000000000000000000000000000000000000000000000000000&
12.00        6 .  0&
9.00        7 .  0&
3.00        8 .  &
5.00        9 .  &
606.00      10 .000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
8.00       11 .  0&
4.00       12 .  &
3.00       13 .  &
1.00       14 .  &
23.00       15 .  000
4.00       16 .  0
  272.00 Extremes    (>=176)

莖宽:      10.0
Each leaf:       7 case(s)
    目前户表使用网银和信用卡交水费的用户,交费金额只占全年水费1.07%。我们认为这与消费习惯有关,要降低新手段的使用壁垒,同时在费用上有适当的优惠。下一步我们可以调查一下使用和未使用的群体差异在哪里,原因何在,有针对性的提出对策。
   
请问这是否是数据挖掘?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-22 14:44:52
王教授:
       你好,我想问一下数据挖掘一般用什么软件,如果想往这个方面发展,需要一些什么知识,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群