R语言中文分词请教

yuanhangzhe

17350

收藏 2014-10-29

请教一下，用R中的Rwordseg包进行中文分词，segmentCN函数分词后构建corpus，再构建tdm词条文档矩阵，可最终结果始终是这样的，求解。。。。谢谢

案\n除了                            1
  案\n正\n在\n如火如荼             1
  拔\n了\n头筹                      1
  被\n海口市\n中级                   1
  被\n揭露                         2
  被\n四\n投资者\n起诉             1
  被\n投资者\n起诉                   1
  被\n小股东\n找上门\n来\n查询       1
  并\n没有                         1
  不\n会\n受理                      1
  创业板\n公司                      1
  但\n都\n因\n虚假                   1
  但\n法院                         1
  当\n北京                         1
  到\n了\n                         1
  的\n案件                            1
  的\n榜样                            1
  的\n创业板\n上市公司                1
  的\n行政                            1
  的\n机构投资者\n仅仅                1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yuanhangzhe

2014-11-12 22:09:39

已解决，tm包与Rwordseg包的兼容问题，把tm包换成tm0.58就可以啦

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xucaifeng66

2014-11-13 16:23:18

不懂，跟正则有关？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2014-11-13 18:46:52

xucaifeng66 发表于 2014-11-13 16:23
不懂，跟正则有关？

是包版本依赖问题，Rwordseg依赖于tm包，但是Rwordseg是2013年开发的，而tm最近更新的，也就是说必须找到2013年的tm包才可以

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chengyn

2015-3-16 15:13:48

yuanhangzhe 发表于 2014-11-13 18:46
是包版本依赖问题，Rwordseg依赖于tm包，但是Rwordseg是2013年开发的，而tm最近更新的，也就是说必须找到 ...

那这个包在哪下？给个链接可以吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

用户名是啥

2015-5-4 22:25:24

你好我看到刘思喆的文章中中文分词是这么写的
library(Rwordseg)
> segmentCN(' 花儿为什么这样红')
[1] "花儿" "为什么" "这样" "红"
但是如何对语料库中的所有文本进行分词呢？就是括号中该写什么呢？？写了语料库的名字后，出现错误：Error in segmentCN(reuters) : Please input character!
求助！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

lisong-1227

2015-5-5 10:13:24

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

用户名是啥

2015-5-9 20:43:12

楼主楼主，求中文分词以及构建tdm矩阵的详细代码，，急需，，邮箱是kezhenw001@163.com，跪谢楼主大恩！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bitzhangf

2015-8-13 10:32:20

我也是遇到了和你一样的问题，但是现在tm0.58下下来都是tr.gz的格式，windows环境安装不上，你有遇到这个问题吗？或者你有zip格式的包吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-15 09:28:33

bitzhangf 发表于 2015-8-13 10:32
我也是遇到了和你一样的问题，但是现在tm0.58下下来都是tr.gz的格式，windows环境安装不上，你有遇到这个问 ...

Rstudio可以装tar.gz格式，还有建议直接换成Rjieba包分词Rwordseg bug太多

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-15 09:30:26

chengyn 发表于 2015-3-16 15:13
那这个包在哪下？给个链接可以吗

官网有

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-15 09:32:46

用户名是啥发表于 2015-5-4 22:25
你好我看到刘思喆的文章中中文分词是这么写的
library(Rwordseg)
> segmentCN(' 花儿为什么这样红')

看下tm包的教程，那里面有

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

torrentpien

2015-8-15 10:49:38

楼主您说可以用jieba，我用jieba也遇到同样的问题，也是要tm降版吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-16 10:16:40

torrentpien 发表于 2015-8-15 10:49
楼主您说可以用jieba，我用jieba也遇到同样的问题，也是要tm降版吗？

什么问题？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

torrentpien

2015-8-16 11:17:26

yuanhangzhe 发表于 2015-8-16 10:16
什么问题？

我用jieba及tm 0.62，也出现分词有\n的情形，楼主把tm转成0.58后有改善吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-17 21:50:13

torrentpien 发表于 2015-8-16 11:17
我用jieba及tm 0.62，也出现分词有\n的情形，楼主把tm转成0.58后有改善吗？

分词不会出现吧，是dtm中出现\n

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yuanhangzhe

2015-8-17 21:50:14

torrentpien 发表于 2015-8-16 11:17
我用jieba及tm 0.62，也出现分词有\n的情形，楼主把tm转成0.58后有改善吗？

分词不会出现吧，是dtm中出现\n

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

兜兜爱人大

2015-11-9 10:20:17

请问一下，分词后文本矩阵怎么形成？就是分词后词变为一个向量的元素？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zizulvxing

2015-11-9 11:42:59

yuanhangzhe 发表于 2015-8-17 21:50
分词不会出现吧，是dtm中出现\n

我用jieba ,DTM矩阵中也有出现“\n”,请问现在解决了吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

huchangjian_air

2015-12-6 12:08:34

yuanhangzhe 发表于 2015-8-17 21:50
分词不会出现吧，是dtm中出现\n

我也是出现\n的情况，重新安装tm只有tm_0.5-8.tar.gz，安装的时候报错如下：

install.packages("C:/Users/hchj/Desktop/tm_0.5-8.tar.gz", repos = NULL, type = "source")
* installing *source* package 'tm' ...
** 成功将'tm'程序包解包并MD5和检查
** libs

*** arch - i386
Warning: 运行命令'make -f "C:/PROGRA~1/R/R-32~1.2/etc/i386/Makeconf" -f "C:/PROGRA~1/R/R-32~1.2/share/make/winshlib.mk" SHLIB="tm.dll" OBJECTS="lazyTmMap.o"'的状态是127
ERROR: compilation failed for package 'tm'
* removing 'C:/Program Files/R/R-3.2.2/library/tm'
Warning in install.packages :
running command '"C:/PROGRA~1/R/R-32~1.2/bin/x64/R" CMD INSTALL -l "C:\Program Files\R\R-3.2.2\library" "C:/Users/hchj/Desktop/tm_0.5-8.tar.gz"' had status 1
Warning in install.packages :
installation of package ‘C:/Users/hchj/Desktop/tm_0.5-8.tar.gz’ had non-zero exit status

您当时是怎么解决问题的？期待回复

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

huchangjian_air

2015-12-6 12:09:30

bitzhangf 发表于 2015-8-13 10:32
我也是遇到了和你一样的问题，但是现在tm0.58下下来都是tr.gz的格式，windows环境安装不上，你有遇到这个问 ...

我遇见和你一样的问题，现在你解决了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pmp55

2016-3-30 13:41:11

这个问题很典型，关键看你的R是哪个版本，相应的Rwordseg、TM包的版本是哪个。如果是R3.0.1版本，一般\n的情况不会出现，但如果是用新的R版本，如R3.2.4，一般在构建DTM时就会出现这个问题。这是R新版本对中文不兼容的问题，坚决之道是用Sys.setlocale函数设置语言环境为英语。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

魏伟(Veyoun)

2016-5-1 20:46:34

file<-paste("D:\\work\\batch-seg-yuliao\\yuliao\\","top",i,"\\","c",i,"-",j,".txt",sep="") #待分词文件路径
out_file<-paste("D:\\work\\batch-seg-yuliao\\yuliao_out\\","top",i,"\\","c",i,"-",j,".txt",sep="") #分词后输出路径
segmentCN(file,returnType="tm",outfile=out_file,nature=TRUE)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

小小鸵鸟

2016-5-5 11:11:39

您好，我也遇到同样问题了，我的R版本是3.2.2版本，然后用Rstudio安装tm0.58的时候出现了版本冲突问题，，想请教下，。你是怎么解决的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

小小鸵鸟

2016-5-5 11:13:52

bitzhangf 发表于 2015-8-13 10:32
我也是遇到了和你一样的问题，但是现在tm0.58下下来都是tr.gz的格式，windows环境安装不上，你有遇到这个问 ...

你好，我也遇到了跟你一样的问题，你的问题解决了么？求助啊，，捣鼓了好久都没有解决，，

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

小小鸵鸟

2016-5-5 14:34:30

小小鸵鸟发表于 2016-5-5 11:13
你好，我也遇到了跟你一样的问题，你的问题解决了么？求助啊，，捣鼓了好久都没有解决，，

自己刚刚网上找到解决办法了，谢谢哈

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

小小鸵鸟

2016-5-5 14:35:00

小小鸵鸟发表于 2016-5-5 11:11
您好，我也遇到同样问题了，我的R版本是3.2.2版本，然后用Rstudio安装tm0.58的时候出现了版本冲突问题，，想 ...

已解决了哈，谢谢哈!

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

轩宇水瓶

2016-5-7 22:45:11

用户名是啥发表于 2015-5-4 22:25
你好我看到刘思喆的文章中中文分词是这么写的
library(Rwordseg)
> segmentCN(' 花儿为什么这样红')

我也遇到这个问题了，你是怎么解决的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shixianglong

2016-5-10 10:03:11

小小鸵鸟发表于 2016-5-5 14:35
已解决了哈，谢谢哈!

HI~ 在吗，我在安装 tm0.5.8 的时候遇到你之前一样的问题，请问你当时是怎么做的呢？你能指导下我吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qishi_71

2016-9-22 14:14:41

小小鸵鸟发表于 2016-5-5 14:35
已解决了哈，谢谢哈!

我也遇到了tm包版本冲突的问题，请问你是最后是怎么解决的啊~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群