全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4571 18
2015-11-26
悬赏 100 个论坛币 已解决
加入有100万条记录,每条记录有10个变量(文本型),需要对100万条记录任意两条记录进行比对(每个变量比对一次),以判断变量是否相同还是不同。
ID  x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1
2
3
4
……
100万


期待的结果(想得到1:判断为相同,0判断为不同)
ID1 ID2 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1    2   0  0  0 0  1  1  0  0  0  1
1    3   0  0  0 0  1  1  0  0  0  1
……
1    100万
2    3
2    4
……
100万-1  100万


有没有什么好的语句,能快速判断完。现在自己写的程序跑的好慢。


最佳答案

Tigflanker 查看完整内容

给你做出来一个很粗略的版本,你可以去dictionary抓变量名去做一下重命名等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-11-26 14:38:05
复制代码
给你做出来一个很粗略的版本,你可以去dictionary抓变量名去做一下重命名等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-26 14:46:29
楼主有没有更进一步的需求,还是这个就是根本目的?

感觉观测之间的遍历比较还真的有点。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-26 14:49:31
不是最终目的,但是这一步是影响sas程序速度的关键一步,后面的事都已解决。目前就是想比较任意两条记录之间的各个变量是否相同,然后赋值为1和0,不知道我有没有说清楚。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-26 14:50:26
任意两个记录的x1比对,x2比对。。。,x10比对
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-26 14:55:44
我感觉还是可以做的,只不过需要新建十个flag变量,

从当前_N_用do until对自己的hash table比对到last,每一条output一次,

只不过你说大数据的话,而且还是字符型,可能内存会架不住

如果有会IML的高手出来帮忙,我估计会贼靠谱~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群