经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
如何使用DocumentTermMatrix函数
楼主
tzy3169
7931
3
收藏
2015-06-23
我在做中文文本的分类代码如下:words<-as.character(csv$keywords)
words<-strsplit(words,',')
corpus = Corpus(VectorSource(words))
(dtm <- DocumentTermMatrix(corpus))
之后使用dtm$dimnames查看发现其中出现了类似“最新研究\n科学家发现\n摄影”这个几个词组合在一起的情况,为什么会出现这样的情况,还有我该如何做才能够避免这类情况发生?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
ryoeng
2015-6-25 00:37:04
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
langmalee
2016-1-11 19:32:28
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
旁白sj
2016-3-27 15:36:36
langmalee 发表于 2016-1-11 19:32
是因为词的长度不统一。如果你都是用两个词,就不会出现那个情况。
两个词?我把词的长度统一后测试,结果还是一样呢
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
[转帖]大家分析这个数据是否分析合理
[转帖]GAUSS 9.0 Documentation in PDF Files
炎炎夏日小心情绪中暑
用tm做了termdocumentmatrix,corpus里面很多词都不见了
[ 文本分析]TermDocumentMatrix中文转换问题?
[tm包]TermDocumentMatrix方法
Theano Documentation 0.8.2
Akka Scala Documentation
Pandas Documentation 0.18.1
Tkinter Documentation
栏目导航
R语言论坛
商学院
真实世界经济学(含财经时事)
经管文库(原现金交易版)
宏观经济学
区域经济学
热门文章
CDA 数据分析师:特征处理核心指南
投资人与创始人互坑套路
全球能源转型展望2025—全球和区域预测至20 ...
自己整理的私募股权投资实操手册。
中国金融生成式AI多模态内容鉴伪与安全防御 ...
海外资管机构赴上海投资指南(2025版)
全球企业社会责任报告数据
USPS账号又“暴雷”,合规浪潮来袭!
世界机器人2025年报告 World Robotics 2025
瓦尔拉斯框架与阿罗德布鲁 - SMD 框架的核心 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群