全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4365 9
2016-03-16
现在有两个数据框,第一个数据框中有一个变量代表节目名,例如:

X1
西游记第19集
2015女足世界杯小组赛
北方剧场:XXXX
.....

第二个数据框有两列,第一列为关键字,第二列为标签,例如:
V1                  V2
西游记            电视剧
北方剧场         电视剧
女足                体育
.......

现在想做的是如下:如果X1的某节目名中包含V1中的某关键字,那么就为之分配相应的标签(V2)。 整理后:

X1                                           X2
西游记第19集                           电视剧
2015女足世界杯小组赛              体育
北方剧场:XXXX                       电视剧

貌似是很简单的一个问题,但用for和grepl写成的循环执行效率低下(关键字数据框大概9w行左右),请大神不吝赐教,
有没有什么高效的解决办法或package?谢谢!
   








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-3-16 16:03:36
可以先分个类,这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后,你再把row.names换一个就可以了
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-16 17:01:46
jiangbeilu 发表于 2016-3-16 16:03
可以先分个类,这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后,你再把row.names换 ...
谢谢,不过就是关键字很多所以才求助的。。8w个
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-16 17:14:15
天啊,电视剧,体育,这种东西,能有8万多啊?这也太开玩笑了吧?
你把相同的归到一类写完就行了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-16 17:28:32
jiangbeilu 发表于 2016-3-16 17:14
天啊,电视剧,体育,这种东西,能有8万多啊?这也太开玩笑了吧?
你把相同的归到一类写完就行了。
不是,我是说8w关键字(V1),就算相同的写一类,grep里的括号也要撑爆了;标签的确没那么多,也就七八百吧;电视剧体育什么的只是举例子,现实的标签分的特别细。。。所以才效率低下。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-16 18:18:18
关键词可以用变量存储的。
分类变量如果有七八百,那么分类的意义也就不明显了。
技术上完全可以实现,因为我们不是专门搞程序的,并不需要十分追求算法效率,能解决问题是我们的首要目的。
只要有关键词对应标签,grep里的东西可以用变量替代的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群