原始数据为x,但x有大量的零值。
要将x转化为对数形式,即建立新变量y.
采用y=log(x+1)的形式是否合理?这样可以避免将大量的零值删除。其对于1的选取有何讲究,是应该取0.1,0.01还是1?
但其可能改变统计分布,如数据中报告的均为级别(x,y,z,t组)变量的均值,为何在rd中,样本组y的均值小于样本组x,而在lrd中,样本组y的均值大于样本组x?
变量 | rd | Lrd |
X | 273.3 | 0.501 |
Y | 181.3 | 0.559 |
Z | 204.1 | 0.508 |
T | 217.9 | 0.424 |
问题何在?