全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
17002 30
2014-10-29

请教一下,用R中的Rwordseg包进行中文分词,segmentCN函数分词后构建corpus,再构建tdm词条文档矩阵,可最终结果始终是这样的,求解。。。。谢谢

案\n除了                              1
  案\n正\n在\n如火如荼                1
  拔\n了\n头筹                        1
  被\n海口市\n中级                    1
  被\n揭露                            2
  被\n四\n投资者\n起诉                1
  被\n投资者\n起诉                    1
  被\n小股东\n找上门\n来\n查询        1
  并\n没有                            1
  不\n会\n受理                        1
  创业板\n公司                        1
  但\n都\n因\n虚假                    1
  但\n法院                            1
  当\n北京                            1
  到\n了\n                            1
  的\n案件                             1
  的\n榜样                             1
  的\n创业板\n上市公司                 1
  的\n行政                             1
  的\n机构投资者\n仅仅                 1


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-12 22:09:39
已解决,tm包与Rwordseg包的兼容问题,把tm包换成tm0.58就可以啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-13 16:23:18
不懂,跟正则有关?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-13 18:46:52
xucaifeng66 发表于 2014-11-13 16:23
不懂,跟正则有关?
是包版本依赖问题,Rwordseg依赖于tm包,但是Rwordseg是2013年开发的,而tm最近更新的,也就是说必须找到2013年的tm包才可以
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-3-16 15:13:48
yuanhangzhe 发表于 2014-11-13 18:46
是包版本依赖问题,Rwordseg依赖于tm包,但是Rwordseg是2013年开发的,而tm最近更新的,也就是说必须找到 ...
那这个包在哪下?给个链接可以吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-4 22:25:24
你好 我看到刘思喆的文章中中文分词是这么写的
library(Rwordseg)
> segmentCN(' 花儿为什么这样红')
[1] "花儿" "为什么" "这样" "红"
但是如何对语料库中的所有文本进行分词呢?就是括号中该写什么呢??写了语料库的名字后,出现错误:Error in segmentCN(reuters) : Please input character!
求助!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群