全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
4432 2
2015-02-15
样本间的距离满足距离的一般要求:正定,对称,三角不等式。
设有m维的n个样本的观测值x_ij,i=1,2,...n;j=1,2,...,m.
1.闵可夫斯基距离:假设变量之间独立,在正交空间中讨论距离。
\[d_{ij}(q)={\left(\sum_{t=1}^{m}{|x_{ti}-x_{tj}|}^{q}\right)}^{\frac{1}{q}}\,i,j=1,2,...n\]
(1)绝对值距离:q=1时的一阶闵可夫斯基距离。
\[d_{ij}(1)=\sum_{t=1}^{m}|x_it-x_jt|i,j=1,2,...n\]
(2)欧氏距离:q=2时的二阶闵可夫斯基距离。该距离与量纲有关;没考虑指标的相关性;没有考虑指标方差的不同。
\[d_{ij}=\sqrt{\sum_{t=1}^{n}{|x_{ti}-x_{tj}|}^2}\,,j=1,2,...n\]
    方差加权距离:考虑到变差大的变量在距离中的作用大,通过用1/s^2作为权重得到统计距离。
\[{d_{ij}}^*=\sqrt{\sum_{t=1}^{m}{(\frac{x_{ti}-x_{tj}}{s_t})}^2}i,j=1,2,...n\]
(3)切比雪夫距离:当q趋近于oo大时的闵可夫斯基距离。
\[d_{ij}(\infty)=\max_{1\leq t\leq m}|x_{ti}-x_{tj}|,i,j=1,2,...n\]
2.兰氏距离:无量纲距离,对大的奇异值不明感,适合处理高度偏倚的数据,但没有考虑变量间的相关性。正交空间中距离。
\[d_{ij}(L)=\frac{1}{m}\sum_{t=1}^{m}\frac{|x_{ti}-x_{tj}|}{(x_{ti}+x_{tj})}i,j=1,2,...n\]
3.马氏距离:变量之间存在相关性可以用马氏距离。不受量纲影响。但是不适合用全部数据计算均值和协方差阵来求马氏距离。合理的办法是用各个类的样本计算各自的协方差阵,同一类样品间的马氏距离应当用这个协方差阵来计算。得到马氏距离不是理想的聚类分析距离。S^{-1}表示样本协方差阵的逆矩阵。
\[d_{ij}(M)=(X_{(i)}-X_{(j)})' S^{-1}(X_{(i)}-X_{(j)})\, i,j=1,2,...n\]
4.斜交空间距离:变量之间其实总存在着不同程度的相关性,用正交空间距离计算样品间距离容易产生最后分类谱系的变形。在数据标准化处理下,r_kl是变量X_k和X_l之间的相关系数
\[ d_{ij}={\left(\frac{1}{m^2}\sum_{k=1}^{m}\sum_{l=1}^{m}(x_{ik}-x_{jk})(x_{il}-x_{ik})r_{kl}\right)}^{\frac{1}{2}}\, i,j=1,2,...n\]

数据做变换在多个样本的同一个指标上进行;样本间距离度量在不同的样本间进行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-2-15 11:57:51
其实这些只是对测度的理解角度不同而已,关键是需要一种测度!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-15 14:51:46
都是知识,不是板凳!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群