求教merge效率的问题 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版

求教merge效率的问题

3451

4

收藏 2011-04-26

有两个数据集进行merge，一个为主表数据较大（billion级别record，20-30variables），另一个从表数据较小（thousands级别record，<=5variable）当对两个表进行merge或者bridge的时候，使用哪种方法的效率更高呢？
我现在能想到的有
proc sql
data merge（with and without index）
hash (内存有限，不确定)
proc format cntlin and put format
求大牛指点一下，哪种方法的效率最高，能排个顺序就更好了，多谢！

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2011-4-26 14:00:54

个人感觉算上merge的sort或者index(proc sql也需要)以及定义format的开销
若小表为k条数量级，那么hash不会有内存问题，format定义基本不占时间
效率为

hash>=format>merge~=proc sql

希望指正

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2011-4-26 15:15:52

2# soporaeternus
多谢，另外问一句，如果是表B也是billion级别的和A类似，hash被排除，鉴于format只能操作一个变量，那么剩下的data （算上sort，index）和sql，哪个更有优势？大概优势有多大呢？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2011-4-26 15:58:07

这个还真的不好说
不过题外一句是，如果这样规模的表原来在数据库里，就还是让数据库去做吧，肯定比SAS快

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2011-4-26 17:13:22

4# soporaeternus
谢了，我自己在测试一下吧。
后面还要用到一些统计方面的处理，而且最重要的一点:
用什么不用什么我说的不算⊙﹏⊙b汗......

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群