全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1052 3
2016-07-22
y: 贷款额
x1: 收入
x2:年龄
x3: 性别
x4: 新/老客户
x1和y的关系是不是应该是比例关系,所以用log?
x2和x1也是有关系的吧?
x3,x4都是二项式的
所以这个模型应该怎么建啊,在R里面用什么code?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-7-22 20:39:30
Y是quantitative变量,不用logistic regression(如果你的log是指这个的话);
若假定Y和X1是比例关系,那就用线型回归模型;
X1和X2肯定有相关性,但到底严不严重,要考察variance inflation factor (VIF)大不大,按经验,收入应该受学历的影响更大;
X3、X4都用哑变量表示;
在R中,用lm()函数解决即可。

利用这个周末多翻查些资料吧,如果哪个具体地问题不明白,尽管问,但是如果从头到尾都没有概念,最好去翻书了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-23 04:45:33
cheetahfly 发表于 2016-7-22 20:39
Y是quantitative变量,不用logistic regression(如果你的log是指这个的话);
若假定Y和X1是比例关系,那 ...
太感谢啦!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 03:33:43
用了最简单的模型,R的输出结果如下,请问怎么改进啊?
> y1 <- Loan
> x1 <- Income
> x2 <- Gender
> x3 <- Customer (Existing customer vs New customer)
> x4 <- Age
> fit1 <- glm(y1~x1+x2+x3+x4)
> summary(fit1)

Call:
glm(formula = y1 ~ x1 + x2 + x3 + x4)

Deviance Residuals:
     Min        1Q    Median        3Q       Max  
-1.93814  -0.47613  -0.02571   0.45665   2.87603  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 8.569570   0.182436  46.973  < 2e-16 ***
x1          0.065963   0.003539  18.641  < 2e-16 ***
x2M         0.109273   0.043666   2.503 0.012491 *  
x3N         0.018938   0.067824   0.279 0.780131   
x4          0.008240   0.002223   3.706 0.000222 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.4580338)

    Null deviance: 635.32  on 999  degrees of freedom
Residual deviance: 455.74  on 995  degrees of freedom
AIC: 2064.1

Number of Fisher Scoring iterations: 2
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群