全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
323 5
2015-09-23
悬赏 200 个论坛币 已解决
重金200论坛金币悬赏解答以下问题:

数据在这里,可以下载后保存成csv 格式:

我们的Excel 版本不一样,csv通用。 前边部分我已经用SQL 弄好了,剩下的要具体分析。没有SAS只能 用R来做。有一年多没碰R了,很多code 忘了。

检验能用后,最全最好的回答将获得额外奖励,谢谢。


这个模型数据只是数十万数据的九牛一毛,但是足以说明问题:

Var0 这个没有在模型数据中显示,因为这个是名字。 一个人可以在多个月有金额,也可以连续几个月没有。 这个变量要考虑进去。

Var1 代表的是2014年1月-2015年8月的数据,模型数据可能不全,但是实际数据绝对够用。 201401 就是2014年1月的格式,以后画图时要把它在图里转换成 Jan 14的样子。

Var2 代表的是金额,有大有小,随便遍的,可能结果很怪,我想看的是过程。

Var3 代表的是五种不同的产品。

Var6 就是一个Indicator

Var4 和 Var5 和 Var3有关联。我要看 当Var4= good, Var5 是high or low都可以的时候,单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和 (Var2)。 并且把图画出来,横向label 是Jan 14, Feb 14, 依次类推,纵向label要分50, 100, 150, 200等。 要先画成柱形图比较直观,而且要把每个月金额总和标在图上。

和上边要求一样,

当Var4=bad, Var5=high 的时候,再单独列出 Var3 = A, B, C, 或者是D 的从2014到2015年每个月的金额总和。

注意当Var4=bad, Var5=low的时候,才列出Var3 = E 的从2014到2015年每个月的金额总和。其实这个 E 包含A, B, C,D的混合险产品但是由于现实数据太少,所以整合在一起。


所以每个Var 3的 A, B, C, D只有四类,

1. var4=good, var5不用编因为high or low都行,var6 = pass

2. var4=good, var5不用编因为high or low都行,var6 = fail

3. var4=bad, var5=high, var6 = pass

4. var4=bad, var5=high, var6 = fail


Var3 = E 的时候只有两种情况:
1. var4=bad, var5=low, var6 = pass
2. var4=bad, var5=low, var6 = fail


然后再把var0的人名考虑进去,画每人每月金额变化的scatter plot, 把每个A, B, C, D, E中的每一种情况都要单独画出来以便分析。 然后在图中标出 outlier。举一个人的例子就可以。 这个我忘了,但觉得R 应该可以做到。 这个outlier 的标准就定在Var2 = 300 以上,以后可以随时修改。



最佳答案

封神榜! 查看完整内容

用matrix 解答。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-9-23 08:58:42
用matrix 解答。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-24 01:11:48
对我来说,难度太大!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-24 05:01:35
sunnywu72 发表于 2015-9-24 01:11
对我来说,难度太大!
我自己弄出来了,但是花了一天时间,写的比较麻烦(几百行)运行两次出所有结果,因为很多codes 一年多不用都忘了。

但是我想让大牛帮我写个可以基本自动更新, 简洁的程序
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-25 07:38:52
重金之下必有勇夫!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-25 07:40:13
作为cheer leader, 也应值得奖励![em01]
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群