重金200论坛金币悬赏解答以下问题:
数据在这里,可以下载后保存成csv 格式:
我们的Excel 版本不一样,csv通用。 前边部分我已经用SQL 弄好了,剩下的要具体分析。没有SAS只能 用R来做。有一年多没碰R了,很多code 忘了。
检验能用后,最全最好的回答将获得额外奖励,谢谢。
这个模型数据只是数十万数据的九牛一毛,但是足以说明问题:
Var0 这个没有在模型数据中显示,因为这个是名字。 一个人可以在多个月有金额,也可以连续几个月没有。 这个变量要考虑进去。
Var1 代表的是2014年1月-2015年8月的数据,模型数据可能不全,但是实际数据绝对够用。 201401 就是2014年1月的格式,以后画图时要把它在图里转换成 Jan 14的样子。
Var2 代表的是金额,有大有小,随便遍的,可能结果很怪,我想看的是过程。
Var3 代表的是五种不同的产品。
Var6 就是一个Indicator
Var4 和 Var5 和 Var3有关联。我要看 当Var4= good, Var5 是high or low都可以的时候,单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和 (Var2)。 并且把图画出来,横向label 是Jan 14, Feb 14, 依次类推,纵向label要分50, 100, 150, 200等。 要先画成柱形图比较直观,而且要把每个月金额总和标在图上。
和上边要求一样,
当Var4=bad, Var5=high 的时候,再单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和。
注意当Var4=bad, Var5=low的时候,才列出Var3 = E 的从2014到2015年每个月的金额总和。其实这个 E 包含A, B, C,D的混合险产品但是由于现实数据太少,所以整合在一起。
所以每个Var 3的 A, B, C, D只有四类,
1. var4=good, var5不用编因为high or low都行,var6 = pass
2. var4=good, var5不用编因为high or low都行,var6 = fail
3. var4=bad, var5=high, var6 = pass
4. var4=bad, var5=high, var6 = fail
Var3 = E 的时候只有两种情况:
1. var4=bad, var5=low, var6 = pass
2. var4=bad, var5=low, var6 = fail
然后再把var0的人名考虑进去,画每人每月金额变化的scatter plot, 把每个A, B, C, D, E中的每一种情况都要单独画出来以便分析。 然后在图中标出 outlier。举一个人的例子就可以。 这个我忘了,但觉得R 应该可以做到。 这个outlier 的标准就定在Var2 = 300 以上,以后可以随时修改。