请R语言大侠帮忙指点scan为什么结果不对

ron2000

4265

收藏 2015-07-26

本人有一个文本文件"D:/test.segment.txt"，内容是汉语的，词之间是空格分开，如：
金书签中国阅读小达人评选活动

我用scan读取文件
> data = scan("D:/test.segment.txt", "character", sep = " ",encoding="UTF-8")Read 5 items> data[1] "金" "书签" "中国" "阅读" "小达人评选活动\xff"

为什么有的词读入时没有分开，比如"小达人评选活动\xff"？测试发现英语空格识别就没有问题。

请高手帮忙指点一下，实在搞不明白了，谢谢！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

万人往LVR

2015-7-26 18:06:33

测试没问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ron2000

2015-7-27 07:16:03

万人往LVR 发表于 2015-7-26 18:06
测试没问题

非常感谢万人往LVR您的回复，为什么我的RStudio里结果就不对呢？是否哪里设置不对？我用的版本是64位R-3.1.2？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

万人往LVR

2015-7-27 09:29:38

不清楚
可以尝试这几项：

把小达人后面空格重写一下

sep=" "换成sep=""

regexpr(" ","小达人评选活动\xff") 看结果是什么

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ron2000

2015-7-27 10:45:08

万人往LVR 发表于 2015-7-27 09:29
不清楚
可以尝试这几项：

再次感谢您的回复，我测试了一下，sep=""和sep=" "，结果是一样的。
另外，用regexpr也发现空格在第4个位置。
真不知道问题出在什么地方了，我附上我用测试用txt文件，麻烦您有空用我的附件测试一下。非常感谢！！！

test.segment.txt
大小:(50 Bytes)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ron2000

2015-7-27 11:09:17

万人往LVR 发表于 2015-7-27 09:29
不清楚
可以尝试这几项：

在您的启发下，我测试了一下我的文件，发现我原来的txt文件是UTF-8格式，我另存为ASNI格式，用同样的语句：
data = scan("D:/test5.txt", "character", sep = " ",encoding="UTF-8")
发现结果分对了，但是RStudio里看是乱码。于是我将语句改为：
data = scan("D:/test5.txt", "character", sep = " ",encoding="ANSI")
这回结果对了。

现在没弄怎么明白问题出在什么地方，不是汉语用UTF-8格式吗，为什么用了，按空格分，反而分的不对？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群