求助，按关键字匹配问题

4466

收藏 2016-03-16

现在有两个数据框，第一个数据框中有一个变量代表节目名，例如：

X1
西游记第19集
2015女足世界杯小组赛
北方剧场：XXXX
.....

第二个数据框有两列，第一列为关键字，第二列为标签，例如：
V1                V2
西游记          电视剧
北方剧场       电视剧
女足             体育
.......

现在想做的是如下：如果X1的某节目名中包含V1中的某关键字，那么就为之分配相应的标签（V2)。整理后：

X1                                        X2
西游记第19集                         电视剧
2015女足世界杯小组赛             体育
北方剧场：XXXX                      电视剧

貌似是很简单的一个问题，但用for和grepl写成的循环执行效率低下（关键字数据框大概9w行左右），请大神不吝赐教，
有没有什么高效的解决办法或package？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

jiangbeilu

2016-3-16 16:03:36

可以先分个类，这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后，你再把row.names换一个就可以了

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

away44

2016-3-16 17:01:46

jiangbeilu 发表于 2016-3-16 16:03
可以先分个类，这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后，你再把row.names换 ...

谢谢，不过就是关键字很多所以才求助的。。8w个

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2016-3-16 17:14:15

天啊，电视剧，体育，这种东西，能有8万多啊？这也太开玩笑了吧？
你把相同的归到一类写完就行了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

away44

2016-3-16 17:28:32

jiangbeilu 发表于 2016-3-16 17:14
天啊，电视剧，体育，这种东西，能有8万多啊？这也太开玩笑了吧？
你把相同的归到一类写完就行了。

不是，我是说8w关键字（V1），就算相同的写一类，grep里的括号也要撑爆了；标签的确没那么多，也就七八百吧；电视剧体育什么的只是举例子，现实的标签分的特别细。。。所以才效率低下。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2016-3-16 18:18:18

关键词可以用变量存储的。
分类变量如果有七八百，那么分类的意义也就不明显了。
技术上完全可以实现，因为我们不是专门搞程序的，并不需要十分追求算法效率，能解决问题是我们的首要目的。
只要有关键词对应标签，grep里的东西可以用变量替代的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

away44

2016-3-16 18:41:47

jiangbeilu 发表于 2016-3-16 18:18
关键词可以用变量存储的。
分类变量如果有七八百，那么分类的意义也就不明显了。
技术上完全可以实现，因 ...

七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可能还远不止七八百。分类的目的未必是建模，给节目标上标签的意义更为重要。不管怎么说谢谢了~统计人与cs相比，编程能力的确不是强项，不过现实中是很难拿到规整又合心意的数据的，我觉得自己是时候补些编程知识了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jiangbeilu

2016-3-16 19:28:09

away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可 ...

这个也不全是编程知识，要优化算法，其实是和数学相关的。
做好分类，解决问题的思路清晰，编程只是用来解放人脑计算的工具。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

李会超

2016-3-17 10:48:51

> x<-c('李张','王少')
> y<-c('王','李')
> z<-2:3
> a<-data.frame(x)
> b<-data.frame(y,z)
library(sqldf)
sqldf('select a.*,b.* from a,b')
然后再对x,y列进行grepl判断

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Stockard

2016-3-22 21:51:25

away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可 ...

我给楼主一个快一点的思路。
去python用pandas，然后用apply方法调用函数，函数写成循环。然后再看看str.contains的用法或者re包
python内部优化做得好，里面有700个循环小case，效率应该比R高很多。
这是一种比较暴力的思路，供参考。
如果你的关键词没有规律，可以这样做。——————
说下这样提议的原因。我曾经也写过那么orz的循环。
大概是10W＋的原数据 vs 1400左右的关键词，十五分钟搞掂。
循环效率太低，如果不包括循环，百万级的数据也几秒钟匹配出来。
R毕竟专长是统计，楼主自己计算下需要多少时间，trade off一下。因为我不知道在处理字符上R的效率如何。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群