R语言数据统计 - 经管之家

R语言数据统计

努力学习的学渣儿

1348

收藏 2021-06-04

使用readlines函数，将text中的文字读入R中，然后完成如下几个小题：

1, 统计文件中出现的标点符号有多少种，并将标点符号使用编码函数重新编码。

然后使用table函数统计每种标点符号的个数，输出结果。

2, 标点符号统计完毕之后，清除读入数据中包含的所有标点符号；

3，抓取文本中出现的所有数字，并将其输出；(注意，一个数字不能拆开，比如14，不能将其分解成1和4，要将连续的数字整体输出)；

4，将出现频率最高的前20个字，重新编码为1,2,3，……，20，并使用hist函数画出对应的频数分布图像。（不包括停用词）

求出习近平总书记讲话中，出现最高的词组？

要求：

1.统计两个字的词组；使用jiebaR软件包对文本进行分词，画出词云图象；(请自己加载程序包，了解词云画图函数的使用！)

2.按照词组(两个字的)出现的频率（取前十位），使用重新编码函数，由高到低分别编码为A，B，……，J分别编码，使用hist函数画出对应的概率分布图。

3.按照词组出现的频率（取前十位），使用重新编码函数，由高到低分别编码为A，B，……，J分别编码。

4.将此问题中3中的结果使用pie函数，画出对应的饼图。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

llb_321

2021-6-4 10:46:28

文本挖掘的题，不算难。
先熟悉一下jiebaR的操作方式，设定好stop_words.utf8，user.dict.utf8两个文件，多试几次分词操作，选择最合适的分词结果。
您接触R有段时间了，其余的提取、统计等操作应没什么问题的。
努力吧，世界上没什么学渣。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

努力学习的学渣儿

2021-6-4 19:12:12

llb_321 发表于 2021-6-4 10:46
文本挖掘的题，不算难。
先熟悉一下jiebaR的操作方式，设定好stop_words.utf8，user.dict.utf8两个文件， ...

收到！明白！立马研究！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

努力学习的学渣儿

2021-6-4 19:12:45

llb_321 发表于 2021-6-4 10:46
文本挖掘的题，不算难。
先熟悉一下jiebaR的操作方式，设定好stop_words.utf8，user.dict.utf8两个文件， ...

谢谢！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群