经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
python论坛
高效率去除重复行
楼主
不二不幸福
1526
2
收藏
2018-05-04
现有txt文件,格式如下:
aaa 111 222
aaa 222 111
bbb 111 333
aaa 111 222
ccc 222 222
bbb 111 444
希望去除重复项,最后得到:
aaa 111 222
aaa 222 111
bbb 111 333
ccc 222 222
bbb 111 444
数据很大,好几十个G,我写的脚本感觉运行效率很低:
复制代码
请问有没有什么高效率的方法啊?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
空山空语
2018-5-15 22:23:09
试试pandas的DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
hanhyojoo1992
2018-5-29 15:26:35
楼上正解
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
栏目导航
python论坛
房地产专版
经管文库(原现金交易版)
金融学(理论版)
人工智能论文版
宏观经济学
热门文章
参数估计:CDA数据分析师的核心推断工具,用 ...
GeoSaaS永久会员版
全国国土利用现状、耕地、园地、林地分布等 ...
脑机接口行业系列报告:Neuralink带来的启示 ...
通往2026 中国消费者趋势前瞻
2025年全国公交路线及站点矢量数据
Causal Inference: what if 25年11月版
芜宣机场,增长740%!
表格结构数据特征与CDA数据分析师:精准适配 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
【新课】26年3月|Gemini辅助论文写作与数据 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群