全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4790 3
2019-01-10
用Rwordseg包做分词时导入停用词包显示乱码,导入代码和导入文本如下图所示,请问应怎样修改导入代码:
stopwords<- read.table("D:/R-learning/中文停用词表.txt",stringsAsFactors = FALSE)

附件列表
中文停用词乱码截图.png

原图尺寸 23.69 KB

中文停用词乱码截图.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-1-10 13:57:41
编码错误吧!
查看你txt文本编码方式,一般是UTF-8
加入 encoding="UTF-8"
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-10 17:03:30
谢谢楼上,现在导入的文本已经不是中文了,但是好像字符之间的分割有点问题,代码和导入文本如下所示:
stopwords<- read.table("D:/R-learning/中文停用词表.txt",stringsAsFactors = FALSE,encoding = "UTF-8",sep = "\n")
导入停用词表问题.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-14 18:52:38
您好,如果您的求助没有解决,请到项目交易发布需求,会有更快更专业的用户帮助您 https://bbs.pinggu.org/prj/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群