第1章 P20
1. 在数据处理时, 为什么通常要进行标准化处理?
对数据进行标准化处理主要为了消除变量的量纲以及量纲差别较大时所带
来的影响,尤其当变量间的单位不同且量级差别特别大时,使用不做任何处理的
数据进行计算,可能会得到极不合理的结果。
2. 欧氏距离与马氏距离的优缺点是什么?
欧氏距离是计算点与点之间距离的常用方法,其缺点是坐标的各维度对计算
距离的贡献是同等的,距离的大小与各维度对应的指标变量的单位有关。因此,
对于大部分统计问题,欧氏距离不太适合。而马氏距离弥补了欧氏距离在统计问
题上的缺陷,马氏距离的计算中会将各指标变量转化为无量纲的数值,而且当变
量服从或渐近服从多元正态分布时,马氏距离具有良好的统计性质。
3. 当变量X1 和X2 方向上的变差相等,且X1 与X2 互相独立时,采用欧氏距离与统
计距离是否一致?
当变量X1 和X2 方向上的变差相等,且X1 与X2 互相独立时,采用欧氏距离与统
计距离的计算结果会相差一个常数倍,即欧氏距离=统计距离*C,该常数项 C 为
变量X1 和X2 的标准差。
4. 如果正态随机向量X = (x1 , x2 ...
附件列表