用tm做文本分析,想要剔除中文的停用词
在网上找了停用词表用read.table读入。提示
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
我看了一下,只读入了18行数据。后面的数据没有,我猜测是后面的数据中存在指针结束符,导致读取终止。我把18行后面几行数据删掉以后果然可以继续读取。
由于我在后面要生成词频矩阵,需要把停用词文本文件转换成UTF-8。但我转存以后, 就无法按停用词所显示的换行符读取。有些地方一次读取好几行内容,内容中间还包括“\n”
求解决方法。
附件列表