经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
用tm包处理中文遇到问题
楼主
tiantanshu
3302
2
收藏
2015-09-14
我用Rwordseg包将中文语句分词后,形成的词汇都如 ‘你好’ ‘谢谢’ 这类看着很正常的词汇。
但是用tm包中的Corpus函数建立语料库后,有些词发生了合并,并且在是使用 ‘\n’ 进行的合并。
例如:“销售\n产品”
这个是为什么呢?该如何解决呢?用tm包处理中文的词汇,一定会这样么?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
旁白sj
2016-3-25 10:17:46
出现同样的问题,请问楼主解决了没?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
ofzhengyi
2017-8-1 21:03:44
分析前先
Sys.setlocale(locale="English")
分析后再恢复设置即可
Sys.setlocale(locale="")
详见
www.zhihu.com/question/39615472
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
words图解词根词源10000单词速记上
Rwordseg使用不成功,求指导
Rwordseg自定义词典遇到的问题
Rwordseg安装失败
【畅销书系列】美国传奇女大法官自传 My Own Words
The joy of fax(818 words)
R中文停用词包导入问题
ManWords Real Words for Real Men
swordsmanX_2020-05-27 23:26:48_【学习笔记】
swordsmanX_2020-06-07 11:29:48_【学习笔记】
栏目导航
R语言论坛
真实世界经济学(含财经时事)
经管高考
宏观经济学
行业分析报告
休闲灌水
热门文章
CDA考试模拟题库:新增章节练习题(更新于1 ...
文本分析:从经管顶刊“加分项”到学术发表 ...
【AI Agent可靠性】 智能体Agent记忆系统: ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
哈耶克作品集 6本 含通往奴役之路、自由宪章 ...
25秋投资学回忆
PromptCoT-2.0-SFT-4.8M 监督微调提示 SFT ...
货币--是如何产生成长发展的和人类的四大工 ...
博观研究院2025年中国跨境进口保健品市场分 ...
全球260多个国家的年通货膨胀率(1961-2024 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群