R语言如何截取中文？

tzy3169

3991

收藏 2015-02-13

我想用R语言做文本分词，现在有一个.txt文件，里面放了多篇中文文章，我知道每篇中文文章从第几个字节开始，文章长多少字节。如何用R语言把每篇文章截取出来？（因为分词是针对没篇文章的，所以在分词前必须将文章分开）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

sheldon.yang123

2015-2-13 15:11:22

用strsplit试试看，要找出各文章间的分割符号。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tzy3169

2015-2-13 15:25:39

有没有利用字节截取的方法，因为我在做的时候是要和数据库联系起来，数据库中对文章位置的描述有两点：从第几个字节开始，总长多少字节。分词结束后还要和数据库中的记录做对应。所以最好用字节截取

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sheldon.yang123

2015-2-14 08:00:47

tzy3169 发表于 2015-2-13 15:25
有没有利用字节截取的方法，因为我在做的时候是要和数据库联系起来，数据库中对文章位置的描述有两点：从第 ...

A1 = A[1:1000]
这样可以拿到A中的第1到1000行，并赋给A1.

最好用readLines()读入原始文本。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tzy3169

2015-2-15 15:17:27

sheldon.yang123 发表于 2015-2-14 08:00
A1 = A[1:1000]
这样可以拿到A中的第1到1000行，并赋给A1.

谢谢你，不过我的数据库中并没有存txt文件中从第几行到第几行是一篇文章，每篇文章是从第几个字节开始到第几个字节结束的。R语言里有没有通过字节方面的操作去截取中文的方法呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangming98

2015-2-15 20:25:07

先用nchar

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群