全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1526 2
2018-05-04
现有txt文件,格式如下:
aaa 111 222
aaa 222 111
bbb 111 333
aaa 111 222
ccc 222 222
bbb 111 444

希望去除重复项,最后得到:
aaa 111 222
aaa 222 111
bbb 111 333
ccc 222 222
bbb 111 444


数据很大,好几十个G,我写的脚本感觉运行效率很低:
复制代码
请问有没有什么高效率的方法啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-5-15 22:23:09
试试pandas的DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-5-29 15:26:35
楼上正解
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群