关于中文文本挖掘的一个问题 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

关于中文文本挖掘的一个问题

2791

9

收藏 2015-02-03

各位R语言专家，本人在用Rwordseg和tm包做中文文本挖掘的时候，最后老是带着一些英文或符号，比如“list(V1 = list(content = c“、”meta = list(author = character(0), datetimestamp = list(sec = 25.0801639556885, min = 3, hour = 12, “等等，最后分词出现下面的内容：”蝴蝶梦\n流星蝴蝶梦\n生态学蝴蝶梦\n鸳鸯你\nmeta“

这种情况应该怎么处理啊？
实在是无处查资料，不知道有没有人曾遇到过，希望有人能帮忙指点一下。非常感谢。
如果有人帮忙解决，本人愿以100币作为小小酬谢。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-2-4 10:55:40

能否把\n用gsub函数替换成空格

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-2-4 11:45:11

李会超发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格

好像不行，可能在中文文本挖掘中有其它方法吧

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-2-4 11:45:21

李会超发表于 2015-2-4 10:55
能否把\n用gsub函数替换成空格

好像不行，可能在中文文本挖掘中有其它方法吧，不过还是谢谢

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-2-9 11:46:35

我跟你遇到了同样的问题，R的版本是3.2.1，有高手指点吗？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-2-9 11:51:41

试试
term = segmentCN( txt, returnType = "tm")
楼主能在详细描述一下你的处理过程？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群