全部版块 我的主页
论坛 站务区 十一区 新手入门区
2499 2
2020-03-28
新手刚刚入门R,利用R语言做文本主题分析时。
(1)中途遇到DocumentTermMatrix矩阵报错问题:Error in nchar(Terms(x), type = "chars") : invalid multibyte string
所以按照网上的教程先设置Sys.setlocale(locale="English"),再执行生成DTM矩阵的代码,后设回Sys.setlocale(category = "LC_ALL", locale = "Chinese")
(2)encoding已改为UTF-8,segment分词最后的结果是中文格式。
(3)Sys.setlocale()检查的结果是LC_COLLATE=Chinese (Simplified)_China.936
(4)可是LDA最后的每个Topic的结果都是类似于<U+8BA1><U+7B97>格式的乱码,不知道问题出在哪里哇卡卡卡卡,求各位帮帮忙。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-7-1 23:17:19
将编码改为'gbk'
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-5 14:39:26
求问,求问楼主最后作文呢么解决的,救我一定!!!!!!!困扰我好久了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群