全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3966 2
2014-11-26
如题,手头上有一个数据库,是通过导入CSV文件组成的,在数据库里面有一些缺失值直接用NA表示了,还有一些是中文:未检,我想请问各位大大,有木有办法把NA和未检变成空白或者直接删去这个值(不是删去这一行),数据比较多,50000多行 600列,万分感谢!
还有一个问题是有一个2000多万行的数据库,第一列是ID代码 第二、三列是收费明细,有没有比较好的办法把相同ID的费用累加
例如:
ID fee prefee     变成       ID   FEE  PREFEE
1   5    3                          1    10       7
1   1    2                          2      7       6
1   4    2
2   3    2
2   2    1
2   2    3
再次感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-15 21:02:23
对于第一个问题,把NA和未检变成空白或者直接删去这个值这种做法不符合统计软件编程的规范,建议不要变成空白,全部变成NA;
对于第二个问题,由于你是在数据处理阶段,使用sort步来完成。

具体可以参考:
proc sort;

by id  **;(**是指要用到first.和last.指令的变量)

run;

/*汇总数据*/

if first.** then total_a=0;(每组要输出的数据都会被初始化为0)

every_a +total_a;(累加每组数据中的每一项)

if last.** then output;
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-15 21:16:15
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群