全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1860 3
2018-08-17
楼主有两个数据集 A,B.
A: 大小2.1G,字段数210个,观测数120W+;
B:大小150M, 字段数6个,观测数200W+;
两个数据集进行条件匹配后,生成观测条数60W+,字段215个,但是数据集大小却有60G
对于这种现象,实在不知道怎么解释,字段只多了5个,观测数少了一半,但是数据大小却增加了30倍
求问各位,知道这是为什么吗?实在想不通~~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-8-17 17:32:33
1、有可能原数据集压缩过?
2、有可能变量长度变化了?
不知道了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-8-17 17:56:22
l1i2n3i4n5g 发表于 2018-8-17 17:32
1、有可能原数据集压缩过?
2、有可能变量长度变化了?
不知道了
是哒,是我们新数据集没有压缩的原因,谢谢!
那,那,那我顺便再问你一个问题好嘛~~就是我现在匹配的速度很慢,因为他要先sort再去匹配嘛。你知道怎么样能够提升匹配的速度吗?谢谢~~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-8-18 10:43:44
蹦跶的小石头 发表于 2018-8-17 17:56
是哒,是我们新数据集没有压缩的原因,谢谢!
那,那,那我顺便再问你一个问题好嘛~~就是我现在匹配的速 ...
最好就是把没用的变量删除一些再匹配
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群