全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
25258 246
2011-12-17

Science 2011-12月:摸索出大型数据集内的趋势 Detecting Novel Associations in Large Data Sets

     哪些表现的统计数据最能影响一位职业运动员的薪资? 在世界各地影响人类健康的最重要的因素是什么? 一种新的统计方法可通过在巨大的数据集内揭示未曾料到的关系来帮助回答这些问题。 这样的数据集在从基因组学到物理学到经济学等许多领域中正变得日益常见。 这些数据集有数百个变量,对人来说,在每一对变量中用人工的方法来寻找它们中的潜在关系的数目过于庞大。 David Reshef、Yakir Reshef及其同事如今描述了一种可在如此庞大的数据集中发现潜在重要关系的强有力的统计方法。
     这种方法的基石是一种叫做“最大信息系数”或MIC的东西,这是在给不同类型的同样“嘈杂”的关系指派类似评分时的一种可在数据中发现范围极端广泛的关系类型的统计方法。 研究人员因此在无需任何先前的对他们在寻找何种关系类型有所了解的情况下可用它来检测由多种因素驱动的复杂模式。 MIC所依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。 这一族统计数据被称作“最大的基于信息的非参数性探索” 或MINE。文章的作者将MINE与其它的方法做比较并显示,MINE更适合于作快速的数据探索。 他们用其来揭示4例真正的数据集中的熟悉的和先前未知的关系:世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。
       在一则相关的《观点栏目》中,Terry Speed对该研究进行了讨论,并回顾了相关系数的历史,该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。附件见下

本帖隐藏的内容

Reshef.SOM.pdf
大小:(9.62 MB)

 马上下载


大家的脑袋要变呀,不要整那些填鸭式的教育了,否则北大清华同济都是浮云!!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-12-17 11:36:58
厉害啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-17 11:40:42
回复曾能复查?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-17 11:42:15
thank you!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-17 11:51:51
看一看内容
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-17 12:02:44
看看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群