away44 发表于 2016-3-16 18:41 
七八百的原因是一级标签下面还有二级标签,比如电视剧-都市,情感,喜剧,等等,要按这个方式组合起来,可 ...
我给楼主一个快一点的思路。
去python用pandas,然后用apply方法调用函数,函数写成循环。然后再看看str.contains的用法或者re包
python内部优化做得好,里面有700个循环小case,效率应该比R高很多。
这是一种比较暴力的思路,供参考。
如果你的关键词没有规律,可以这样做。——————
说下这样提议的原因。我曾经也写过那么orz的循环。
大概是10W+的原数据 vs 1400左右的关键词,十五分钟搞掂。
循环效率太低,如果不包括循环,百万级的数据也几秒钟匹配出来。
R毕竟专长是统计,楼主自己计算下需要多少时间,trade off一下。因为我不知道在处理字符上R的效率如何。