全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2775 1
2017-10-13
屏幕快照 2017-10-13 下午3.06.21.png
注:H(i) represents the entropy of issue iamong all the 310 contractors, while H(i,C) represents the entropyof issue i among all the certified contractors.
其中i的范围是从[1,113],C可以看成一个分类类别(认证、没有认证)。
还有不清楚的可以查看文献:Liao, P.-C., Xia, N.-N., Wu, C.-L., Zhang, X.-L., & Yeh, J.-L. (2017). Communicating the corporate social responsibility (CSR) of international contractors: Content analysis of CSR reporting. Journal of Cleaner Production, 156, 327–336.
                                                                                                                                                [size=8.000000pt]


                               
                       
               

我在一篇论文中看见一个关于信息增益的计算公式(如上图),发现该计算方法与网上或者书本上介绍的正常信息增益计算公式有一些区别,因为本人不是数据挖掘方向专业的,只是在本专业相关论文中看见该公式,并且想要弄明白该文章中信息增益公式为什么可以这样写。请问有哪位高人之前见过这种公式或者能解释清楚该公式吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-10-16 10:52:24
第一个等式没问题,第二个等号应该是有点问题的,关键是你没有列出每一个符号代表的意义,自己想问就应该把该列的都列出来,而不是让回答问题的人去找。另外,信息增益是信息论里面的概念,而非数据挖掘,只不过现在数据挖掘有很多地方有应用,所以这个问题你应该要去真正理解信息熵,而不是公式怎么写的。根据百度百科的解释,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。不确定性函数f是概率P的单调递降函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即  log(1/p),所以其权和则代表了该信源的平均不确定性,即信息熵,进一步可得出条件熵,两者相减即是信息增益。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群