把定性变量叫做项目,把定性变量的值叫做类目。
设样本X_{(i)}的取值为(\sigma_i(k,1),\sigma_i(k,2),...,\sigma_i(k,r_k))定义第k个项目之l类目在第i个样本上的反应:
\[\sigma_i(k,l)=\begin{cases}1,&当第i个样品中第k个项目的定性数据为第l个类目时\\0,&其他情况\end{cases}\]
有两个样本X_{(i)},X_{(j)},如果\sigma_i(k,l)=\sigma_j(k,l)=1,就称两个样品在第k个项目的第l个类目上1—1配对;
如果\sigma_i(k,l)=\sigma_j(k,l)=0,就称两个样品在第k个项目的第l个类目上0—0配对;如果\sigma_i(k,l) !=\sigma_j(k,l),
就称两个样品不配对。
记m_1为X_(i)和X_(j)在m个项目中所有类目中1—1配对的总数;m_0为0—0配对的总数,m_2为不配对的总数。
有:m_0+m_1+m_2=p=r_1+r_2+...+r_m
三种距离:
(1)不配对的类目数占有反应的类目的比例:m_2/(m_1+m_2)
(2)不配对的项目的比例:m_2*/m,其中m_2*表示不配对的项目总数
(3)不配对的类目的总数:
\[{d_{ij}}^2=\sum_{k=1}^{m}\sum_{l=1}^{r_k}{(\sigma_i(k,l)-\sigma_j(k,l))}^2\]
八种相似度:
(1)配对总数占总类目的比例:(m_0+m_1)/p
(2)1—1配对总数占总类目的比例:m_1/p
(3)在不考虑0—0配对的情况下,1—1配对所占比例:m_1/(m_1+m_2)
(4)对1—1配对和0—0配对双倍加权配对类目所占比例:2*(m_0+m_1)/(p+m_0+m_1)
(5)对不配对数双倍加权后配对类目所占比例:(m_0+m_1)/(p+m_2)
(6)对1—1配对双倍加权不考虑0—0配对时配对类目所占比例:2m_1/(2*m_1+m_2)
(7)不考虑0—0配对,对不配对数双倍加权后配对类目的比例:m_1/(m_1+2*m_2)
(8)不考虑0—0配对,取1—1配对数与不配对数的比例:m_1/m_2