全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3580 5
2009-02-17

 我遇到一组数据如下

"age" "car.age" "type" "cost" "number"
"17-20" "0-3" "A" 289 8
"17-20" "4-7" "A" 282 8
"17-20" "8-9" "A" 133 4
"17-20" "10+" "A" 160 1
"17-20" "0-3" "B" 372 10
"17-20" "4-7" "B" 249 28
"17-20" "8-9" "B" 288 1
"17-20" "10+" "B" 11 1
"17-20" "0-3" "C" 189 9
"17-20" "4-7" "C" 288 13
"17-20" "8-9" "C" 179 1
"17-20" "10+" "C"  0
"17-20" "0-3" "D" 763 3
"17-20" "4-7" "D" 850 2
"17-20" "8-9" "D"  0
"17-20" "10+" "D"  0
"21-24" "0-3" "A" 302 18
"21-24" "4-7" "A" 194 31
"21-24" "8-9" "A" 135 10
"21-24" "10+" "A" 166 4
"21-24" "0-3" "B" 420 59
"21-24" "4-7" "B" 243 96
"21-24" "8-9" "B" 196 13
"21-24" "10+" "B" 135 3
"21-24" "0-3" "C" 268 44
"21-24" "4-7" "C" 343 39
"21-24" "8-9" "C" 293 7
"21-24" "10+" "C" 104 2
"21-24" "0-3" "D" 407 24
"21-24" "4-7" "D" 320 18
"21-24" "8-9" "D" 205 2
"21-24" "10+" "D"  0

用R 语言应该使用什么代码分析此类数据,望精通R 语言的高手赐教,指点指点

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-2-19 17:19:00
好像不大明白您问的问题哦!能否具体详细点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-3-14 20:55:00
虚变量
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-3-15 21:31:00

就是分析数据中的cost 和number 与age、type 以及car.age的联系,由于age、type 和car.age 都是区间变量或者是属性变量,

不知道选用什么办法分析,感觉要用category method to analysis this data, but it is difficult to  building an appropriate model for this data.

so I need somebody give me some suggestions.

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-3-25 18:51:00

是有点复杂啊

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-27 14:15:24
首先要把你那些区间变量因子化,用as.factor()转换。
至于模型问题,关键在于你要研究的是什么,如果你要研究cost,cost作为连续变量如果它本身是正态分布,那么简单的,你可以根据分类变量分组,然后用t检验,方差分析都可以。或者用线性回归来拟合(只是你的连续变量相对于分类变量过少,如果样本量不大,线性回归效果可能不好)。

如果你要研究numbers,numbers一般具有泊淞分布,这样用对数线性模型拟合更好。

如果是要研究分类变量问题,可以用卡方分析,逻辑回归都行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群