全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2391 4
2017-07-22
求大神们解答,对于两个上千万观测的数据集,在SAS中用sql步做左连接时要耗时5-6个小时,而且连个表的key值字段名不一样,key值有两个,有什么方法可以加快速度进行两个表的连接?或者用哈希如何实现,哈希好像要求key名一样?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-22 18:57:11
不知道,同问
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-25 10:29:35
我干过一样的事儿 1亿连1亿

实际上data step可能会快一点
如果你要hash的话 用这个
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-25 16:06:56
大片阳光因你 发表于 2017-7-25 10:29
我干过一样的事儿 1亿连1亿

实际上data step可能会快一点
大神好,你说的data步是先排序再用merge吗,排序也很耗时的呀,还是另有其他方法??你的一亿连一亿是怎么实现的呢?
感觉还是hash速度会快点,但没怎么用过。想问一下hash对于两个表有相同的字段连接,需要在连接的同时对第二个表的字段重命名怎么处理呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-26 07:49:53
xiao_mingyan 发表于 2017-7-25 16:06
大神好,你说的data步是先排序再用merge吗,排序也很耗时的呀,还是另有其他方法??你的一亿连一亿是怎么 ...
对 先排序再merge 实际上我觉得data step的速度是最快的
hash的原理和sql差不多 都是调入内存进行操作

重名字段没问题的 上测试数据 我给你code
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群