高效率去除重复行 - python论坛 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛

高效率去除重复行

不二不幸福

1526

2

收藏 2018-05-04

现有txt文件，格式如下：
aaa 111 222
aaa 222 111
bbb 111 333
aaa 111 222
ccc 222 222
bbb 111 444

希望去除重复项，最后得到：
aaa 111 222
aaa 222 111
bbb 111 333
ccc 222 222
bbb 111 444

数据很大，好几十个G，我写的脚本感觉运行效率很低：

复制代码

请问有没有什么高效率的方法啊？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2018-5-15 22:23:09

试试pandas的DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-5-29 15:26:35

楼上正解

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群