全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7181 8
2014-05-19
为什么用完dtm.a<-TermDocumentMatrix(ovid.a)后,dtm.a 的数据中总有\\n? 貌似英文没有这个问题。
详细如下:
###############################################################
>inspect(ovid.a)
A corpus with 5 text documents

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator
Available variables in the data frame are:
  MetaID

[[1]]
东方红

[[2]]
东方
证券

[[3]]
东方



[[4]]
东方
证券
开户

[[5]]
东方红

动力
#############################################################################
> inspect(dtm.a)
A document-term matrix (5 documents, 4 terms)

Non-/sparse entries: 4/16
Sparsity           : 80%
Maximal term length: 8
Weighting          : term frequency (tf)

    Terms
Docs 东方红\\n 东方红\\n新\\n动力 开户\\n 赢\\n家\\n
   1        1                0      0        0
   2        0                0      0        0
   3        0                0      0        1
   4        0                0      1        0
   5        0                1      0        0
>

############################################################################
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-5-19 13:09:54
中文分词没做好吧,//n貌似是回车符号,
还有转dtm之前可以清洗一下,tm_map( corpus ,removePunctuation) 试试?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-19 23:44:15
问题解决了没有啊,我也遇到同样的问题,求教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-20 23:05:18
visuallion 发表于 2014-8-19 23:44
问题解决了没有啊,我也遇到同样的问题,求教。
这个函数现在好像已经不能用了·····
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-4 08:35:38
你好,请问问题解决了吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-6-12 16:04:11
不要使用R 3.10以上的版本。
用R3.0.2就没有问题。
开源软件就是这样的,没人可以保证它的质量,我已经在R里进过很多坑了。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群