全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1348 3
2021-06-04

使用readlines函数,将text中的文字读入R中,然后完成如下几个小题:

1, 统计文件中出现的标点符号有多少种,并将标点符号使用编码函数重新编码。

然后使用table函数统计每种标点符号的个数,输出结果。

2, 标点符号统计完毕之后,清除读入数据中包含的所有标点符号;

3,抓取文本中出现的所有数字,并将其输出;(注意,一个数字不能拆开,比如14, 不能将其分解成1和4,要将连续的数字整体输出);

4,将出现频率最高的前20个字,重新编码为1,2,3,……,20,并使用hist函数画出对应的频数分布图像。(不包括停用词)

求出习近平总书记讲话中,出现最高的词组?

要求:

1.统计两个字的词组;使用jiebaR软件包对文本进行分词,画出词云图象;(请自己加载程序包,了解词云画图函数的使用!)

2.按照词组(两个字的)出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码,使用hist函数画出对应的概率分布图。

3.按照词组出现的频率(取前十位),使用重新编码函数,由高到低分别编码为A,B,……,J分别编码。

4.将此问题中3中的结果使用pie函数,画出对应的饼图。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-6-4 10:46:28
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件,多试几次分词操作,选择最合适的分词结果。
您接触R有段时间了,其余的提取、统计等操作应没什么问题的。
努力吧,世界上没什么学渣。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-6-4 19:12:12
llb_321 发表于 2021-6-4 10:46
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件, ...
收到!明白!立马研究!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-6-4 19:12:45
llb_321 发表于 2021-6-4 10:46
文本挖掘的题,不算难。
先熟悉一下jiebaR的操作方式,设定好stop_words.utf8,user.dict.utf8两个文件, ...
谢谢!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群