全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4167 9
2015-07-26
本人有一个文本文件"D:/test.segment.txt",内容是汉语的,词之间是空格分开,如:
金 书签 中国 阅读 小达人 评选活动

我用scan读取文件
> data = scan("D:/test.segment.txt", "character", sep = " ",encoding="UTF-8")Read 5 items> data[1] "金"                   "书签"                "中国"                "阅读"                "小达人 评选活动\xff"

为什么有的词读入时没有分开,比如"小达人 评选活动\xff"?测试发现英语空格识别就没有问题。

请高手帮忙指点一下,实在搞不明白了,谢谢!!!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-7-26 18:06:33
测试没问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-27 07:16:03
万人往LVR 发表于 2015-7-26 18:06
测试没问题
2015-07-27_071350.png
非常感谢万人往LVR您的回复,为什么我的RStudio里结果就不对呢?是否哪里设置不对?我用的版本是64位R-3.1.2?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-27 09:29:38
不清楚
可以尝试这几项:

把小达人后面空格重写一下

sep=" "换成sep=""

regexpr(" ","小达人 评选活动\xff") 看结果是什么
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-27 10:45:08
万人往LVR 发表于 2015-7-27 09:29
不清楚
可以尝试这几项:
再次感谢您的回复,我测试了一下,sep=""和sep=" ",结果是一样的。
另外,用regexpr也发现空格在第4个位置。
真不知道问题出在什么地方了,我附上我用测试用txt文件,麻烦您有空用我的附件测试一下。非常感谢!!!
2015-07-27.png

test.segment.txt
大小:(50 Bytes)

 马上下载


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-7-27 11:09:17
万人往LVR 发表于 2015-7-27 09:29
不清楚
可以尝试这几项:
在您的启发下,我测试了一下我的文件,发现我原来的txt文件是UTF-8格式,我另存为ASNI格式,用同样的语句:
data = scan("D:/test5.txt", "character", sep = " ",encoding="UTF-8")
发现结果分对了,但是RStudio里看是乱码。于是我将语句改为:
data = scan("D:/test5.txt", "character", sep = " ",encoding="ANSI")
这回结果对了。

现在没弄怎么明白问题出在什么地方,不是汉语用
UTF-8格式吗,为什么用了,按空格分,反而分的不对?

2015-07-27_2.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群