全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2627 9
2015-02-03
各位R语言专家,本人在用Rwordseg和tm包做中文文本挖掘的时候,最后老是带着一些英文或符号,比如“list(V1 = list(content = c“、”meta = list(author = character(0), datetimestamp = list(sec = 25.0801639556885, min = 3, hour = 12, “等等,最后分词出现下面的内容:”蝴蝶梦\n流星 蝴蝶梦\n生态学 蝴蝶梦\n鸳鸯 你\nmeta“

这种情况应该怎么处理啊?
实在是无处查资料,不知道有没有人曾遇到过,希望有人能帮忙指点一下。非常感谢。
如果有人帮忙解决,本人愿以100币作为小小酬谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-2-4 10:55:40
能否把\n用gsub函数替换成空格
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-4 11:45:11
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-4 11:45:21
李会超 发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格
好像不行,可能在中文文本挖掘中有其它方法吧,不过还是谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-9 11:46:35
我跟你遇到了同样的问题,R的版本是3.2.1,有高手指点吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-2-9 11:51:41
试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群