很多时候不能只看数据。数据时实际现象的数字化表象,那脱离了实际的背景,数字也没什么意义的。
比如lz说的这个问题:
房子这么大,还有占地面积,应该是外国的别墅式住宅。这情况就和中国的不太一样了,中国的楼房如果地段相同的话,肯定是房子越大越值钱。但外国的这种别墅是不是居民所享受的效用除了由房屋大小带来外,还有周围可以活动的空间呢?什么在后院有个游泳池,周末在自家院子里来个聚会,搞个BBQ什么的。所以主要承担房价的会不会是房屋面积和除房屋面积后的占地面积呢?
我就又建了个交叉指标x6=(占地面积-房屋面积)*房屋面积,把所有的东西再都带进去做循环,结果为:
| 变量 | 参数 | 标准 | II 型 SS
| F 值
| Pr > F
|
| 估计值 | 误差 |
| Intercept | 146041 | 20855 | 2.9152E+10 | 49.04 | 0.0009 |
| x6 | 0.00289 | 0.00069485 | 1.0311E+10 | 17.34 | 0.0088 |
预测结果:
| 房子面积(平方英尺)
| 交叉指标
| 占地的大小
| 卧室
| 花岗岩
| 卫生间有无重装?
| 销售价格
| 预测价格
|
| 1 | 2,397
| 28,186,323
| 14,156
| 4
| 1
| 0
| $189,900
| $227,499
|
| 2 | 2,200
| 16,280,000
| 9,600
| 4
| 0
| 1
| $195,000
| $193,090
|
| 3 | 4,032
| 24,667,776
| 10,150
| 5
| 0
| 1
| $197,900
| $217,331
|
| 4 | 3,529
| 19,981,198
| 9,191
| 6
| 0
| 0
| $205,000
| $203,787
|
| 5 | 3,247
| 22,125,058
| 10,061
| 5
| 1
| 1
| $224,900
| $209,982
|
| 6 | 2,983
| 19,037,506
| 9,365
| 5
| 0
| 1
| $230,000
| $201,059
|
| 7 | 3,536
| 58,195,488
| 19,994
| 6
| 1
| 1
| $325,000
| $314,226
|
|
|
|
|
|
|
|
|
|
| ?? | 3,198
| 20,694,258
| 9,669
| 5
| 1
| 1
| ??
| $205,847
|
结果显示房子大、院子也大,卖得越贵。所以觉得实际背景很重要,先要让数据尽可能准确的描述实际情况。