经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
两个数据集通过相同列(品种)进行模糊匹配然后合并
楼主
iEricChen
2208
3
收藏
2020-07-17
大佬们,请问下我有数据集A和数据集B,他们都有“品种”这一列,我想把他们通过品种进行合并,但是数据集A中的品种可能有些项的内容是“铜、铝”,而数据集B中的品种每一项就是标准的品种名称,如“铜”,精确匹配就无法识别,只能模糊匹配,所以如何才能使他们匹配上,然后讲两个数据集合并或者是将数据集B剩下的列添加到数据集A对应行后面
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
llb_321
2020-7-17 10:57:19
既然B的品种是标准化名称,那么factor一下,level数应该不是很大。A的品种,估计是人工操作随意性比较大,但也不会太过杂乱。基于这种理解,建议两种方案:
一、如你所说,模糊匹配,但这样需要对样本进行循环处理,对B的每一个样本都需要对A遍历匹配。
二、如果A的品种不是差异太大,比如说根本没有规律那种,可以两个数据表都增加一列ID,B的品种按照level标准化,A的品种可以编个函数,用正则表达式或者字符串操作提取标准品种,并赋值标准化ID,用apply函数族对所有样本加以处理。最后,就可以按ID执行join操作。这个方案无法解决A中单一样本多个品种重复的问题。
另外,能否从根本上解决A的数据结构问题。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
llb_321
2020-7-17 22:47:18
这个包我不太会用,你可以用自己的数据试一试:
library(fuzzyjoin)
C<- regex_left_join(A, B, by = c(品种 = "品种"))
#by选项中,第一个品种是A的变量名,第二个“品种”是B的变量名
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
湘江之水
2020-8-20 11:57:26
经济学中的因果推断方法培训课程(国庆班)【赵西亮教授独家分享】
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
请教如何提取不同数据集中的变量?
求助数据集合并
如何计算分组占总体的比重?
求助:如何分析数据集中的多种不同类型数据
新人求助,从两个数据集中取数据进行计算
SAS如何读入这样的数据集
数据集拆分
关于数据集加密的一个问题
关于merge语句覆盖的一个问题
关于合并2个数据集的问题
栏目导航
R语言论坛
宏观经济学
计量经济学与统计软件
求助成功区
经管高考
数据分析与数据科学
热门文章
CDA 数据分析师:线性回归实战指南 —— 从 ...
世界上最简单的会计书(高清pdf版)
20XX年扶贫办雨露计划工作方案
AI应用新范式:从工具革命到“超级OS”的演 ...
同心动力携手山西金控,共筑金融企业“以人 ...
R语言实战 机器学习与数据分
蔡定创教授、李云庆院长致联合国秘书长古特 ...
2022年北京冬奥会英语观后感【10篇】
R语言预测实战
瓦尔拉斯方程组及其求解历史
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群