经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
如何使用DocumentTermMatrix函数
楼主
tzy3169
8018
3
收藏
2015-06-23
我在做中文文本的分类代码如下:words<-as.character(csv$keywords)
words<-strsplit(words,',')
corpus = Corpus(VectorSource(words))
(dtm <- DocumentTermMatrix(corpus))
之后使用dtm$dimnames查看发现其中出现了类似“最新研究\n科学家发现\n摄影”这个几个词组合在一起的情况,为什么会出现这样的情况,还有我该如何做才能够避免这类情况发生?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
ryoeng
2015-6-25 00:37:04
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
langmalee
2016-1-11 19:32:28
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
旁白sj
2016-3-27 15:36:36
langmalee 发表于 2016-1-11 19:32
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。
两个词?我把词的长度统一后测试,结果还是一样呢
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
[转帖]大家分析这个数据是否分析合理
[转帖]GAUSS 9.0 Documentation in PDF Files
炎炎夏日小心情绪中暑
用tm做了termdocumentmatrix,corpus里面很多词都不见了
[ 文本分析]TermDocumentMatrix中文转换问题?
[tm包]TermDocumentMatrix方法
Theano Documentation 0.8.2
Akka Scala Documentation
Pandas Documentation 0.18.1
Tkinter Documentation
栏目导航
R语言论坛
哲学与心理学版
经管文库(原现金交易版)
经管高考
区域经济学
创新与战略管理
热门文章
表格结构数据的核心特征及具象实例解析
毕马威 - 中国内地与香港IPO市场2025年回顾 ...
高教现代数学基础23 矩阵计算六讲 徐树方,钱 ...
安徽全省一盘棋发力汽车产业
【24顶刊热点!】2000-2024上市公司股价崩盘 ...
求Journal of Computational and Graphical ...
查找文献Digital mapping of soil organic ...
《技术的本质》epub版本
精准匹配,菁英相伴--经管之家单身俱乐部, ...
科研时间70%耗在“下载-复制-粘贴”?零代码 ...
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群