全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
2114 3
2014-08-14
    关于数据挖掘的作用,“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)”。举个例子说。

    你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了。这叫分析报告。

    孙悟空要跟二郎神打架了,有个赌徒找你预测。你做了个统计,发现两人斗争4567次,其中孙悟空赢3456次。另外,孙悟空斗牛魔王,胜率是89%,二郎神斗牛魔王胜率是71%。你得出趋势是孙悟空赢。因为你假设了这次胜利跟历史的关系,根据经验作了一个假设。
这叫统计分析。

    你什么都没做,让计算机自己做关联分析,自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。孙悟空遇到的名师不亚于二郎神,而打架经验绝对丰富,并且单身,所以这次打斗,孙悟空赢。这叫数据挖掘。

    数据挖掘跟LOAP的区别在于它没有假设,让计算机找出这种背后的关系,而这种关系可能是你所想得到的,也可能是所想不到的。比如数据挖掘找出的结果发现在2亿条打斗记录中,姓孙的跟姓杨的打,总是姓孙的胜利,孙悟空姓孙,所以,悟空胜利。

    用在现实中,我们举个例子来说,做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。
  

    帮助人大经济论坛推广,复制贴子内容(带人大经济论坛网址)并发到其他论坛和网站;或点击贴子标题后的“推广有奖”,把本贴推荐到QQ群或自己的微博(最好@人大经济论坛),然后跟贴贴出链接或截图,证明已作推广的,将获得如下论坛币的奖励!(大家一定要把群现有人数或微博粉丝人数截屏出来哦~不然只能奖励10个币哦)
    活动奖励方式(同一个群或微博或网站分享多次算一次,所有截图均需显示分享人数,否则默认低档奖励):

  
    1.凡分享的QQ群,人数在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每群限奖励一次);500人以上的奖励50-100论坛币。
    2.凡分享到微博,您的粉丝在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每微博限奖励一次);500人以上的奖励50-100论坛币。
    3.凡分享到其他网站(包括校内网等),帖子保留一天以上的(24小时后截图),奖励50论坛币



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-14 14:12:04
析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-14 17:30:39
这么说,像我这样的菜鸟,就清楚多了~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-20 07:22:12
看来教学,必须要用例子,并且必须用贴切的例子,最好的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群