发布一种两个分布的相似度、距离的度量——胡氏相似度、距离(原创,如果已有此定义欢迎指出)。
Bhattacharyya会夸大相似度,比如取两个值的分布,概率分别为90%、10%,另一个概率分别为10%、90%,巴氏距离会得到0.6的相似度。
胡氏距离的结果是0.36,更合理。
(请回复,谢谢!如想不回复查看,请等待更新,可能在3个月后)
本帖隐藏的内容
离散型胡氏相似度 H=Σ(2*p(x)*q(x)/(p(x)+q(x)))
连续型胡氏相似度 H=∫(2*p(x)*q(x)/(p(x)+q(x)))dx
离散型胡氏距离 -log(Σ(2*p(x)*q(x)/(p(x)+q(x))))
连续型胡氏距离 -log(∫(2*p(x)*q(x)/(p(x)+q(x))))dx
p(x)、q(x)任一值为0时,对应的2*p(x)*q(x)/(p(x)+q(x))取值为0
注:
离散型巴氏相似度 B=Σ(sqrt(p(x)*q(x)))
连续型巴氏相似度 B=∫(sqrt(p(x)*q(x)))dx
根据0≤a≤1、0≤b≤1,0≤2ab/(a+b)≤sqrt(ab)≤(a+b)/2≤1;容易证明上式均满足相似度[0,1]、距离[0,∞)的条件,且同分布相似度为1、距离为0,完全不同的分布相似度为0、距离为无穷。