全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7949 8
2014-01-27
1. patent<-readLines('C:/Users/zhangweiwei/Desktop/patentname_abstract_ipc.txt',encoding='UFT-8')
2. patentname_abstract1<-Corpus(VectorSource(patentname_abstract))
3. patentname_abstract2.2<-sapply(patentname_abstract1, extractNoun, USE.NAMES=F)
4. patentname_abstrapatentct3 <- sapply(patentname_abstract2, function(x) {Filter(function(y) {nchar(y) <= 4 && nchar(y) >=2 && is.hangul(y)},x)} )
5. patentname_abstract4<- Corpus(VectorSource(patentname_abstract3))
6.tdm <- DocumentTermMatrix(patentname_abstract4)

到第5步位置,所有的词都还在,使用DocumentTermMatrix函数之后,很多词都见了,有没有高手指点一下啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-1-27 14:06:23
有用过tm包的,请指点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-20 22:27:31
这个函数现在貌似连用都有问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-16 15:37:04
dtm<-DocumentTermMatrix(ovid,control=list(wordLengths=c(2,Inf)))#建立关联矩阵,最小字长为2

默认最小字长是3,所以长度小于3的都被删去了

刚刚遇到这个问题,时间对你有点久了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-1-19 14:41:37
请问楼主的这个函数是什么?extractNoun
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-27 17:09:30
万人往LVR 发表于 2015-4-16 15:37
dtm
请问用了DocumentTermMatrix之后词频矩阵出现 \n的情况是怎么回事?   (例如:“我\n是\n人名”、“约\n好\n晚上”)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群