R语言 -- 文本挖掘利器 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

R语言 -- 文本挖掘利器

19582

38

收藏 2013-03-10

Text Mining in R.pdf
大小:(302.52 KB)

自然语言处理（Nature Language Process）是一个非常让人着迷的领域，应用范围非常广泛，比如去年人机大战中大出风头的IBM Watson，iPhone 4S的语音助理模块Siri，以及针对于社会热点的舆情分析，这些应用都使用了自然语言处理技术。当然，统计背景的分析类科研人员更关注于舆情分析这类的文本挖掘技术。
很多统计软件都提供了文本挖掘的功能，比如常见的数据分析软件SAS、SPSS等，以及一些语言如Python、Java，侧重点有所不同。但对于一般文本挖掘主要包括：

Preprocess：数据准备、导入、清洗以及一般性的预处理
Associate：关联分析，根据同时出现的频率找出关联规则
Cluster：将相似的文档（词条）进行聚类
Categorize：将文本划分到预先定义的类别里
API：可扩展的应用编程接口

至少在2008年，商业和开源软件的功能特性差不多（但我不确认Latent Semantic Analysis、Latent Dirichlet Allocation这类的模型是否支持），只是由于众所周知的缘故，对于API的扩展支持有所差异。
对于中文环境下的文本挖掘，无外乎要解决如下几个问题：

较为精确的中文分词（可能还需要支持个性化题库，甚至词性分析）
生成词条-文档矩阵，甚至矩阵的运算
后续的挖掘算法支撑（传统的以及语义类的）
其他

在R语言环境下，有众多的包支撑解决上述问题。 Ingo Feinerer开发维护的tm包提供了完整的文本挖掘的框架，借助辅助工具及R包，甚至还可以处理word、pdf文档的读入，文档处理并行化运算，文件数据库的语料处理等问题。
闲话不多说，最下面链接给出了一份基于《Introduction to the tm Package》整理的，基于tm包的中文文本挖掘的介绍性文档，内容包含

互联网网页处理：XML包的简介
中文分词
tm包的完整介绍：读写、语料库构建、过滤、转化、元数据、文档-词条矩阵等
文本挖掘技术及应用等

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2013-3-16 07:27:50

good

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-3-18 11:52:24

不错

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-6-26 23:19:37

good

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-6-26 23:20:01

good

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-8-5 09:04:26

很不错，挺详细的，谢谢啦！

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2013-10-11 17:42:24

谢谢分享

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-11-20 16:11:05

R语言学习了

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

让青春变幽默

2013-12-2 20:50:00

就这么点吗，太少了吧

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2013-12-28 22:06:26

不错这一块钱花的值~

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-1-1 12:14:22

然语言处理（

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-1-1 16:14:12

下载了以后稍微看了一下，似乎是一个人写的论文或者参考资料之类的
不是很长

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-6-25 20:28:43

不错，感激

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-6-26 06:42:12

LZ知道目前R文本挖掘技术在行业里有什么成功的应用案例吗？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-7-22 12:07:27

R语言与文本挖掘

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-7-29 14:09:14

多谢，学习了。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-9-30 16:09:24

真心 good goodgoodgoodgoodgood

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

落日烟雨轻

2014-11-30 20:44:41

受用无穷~~

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-12-1 12:51:10

谢谢分享

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2014-12-4 19:10:06

好好好，下载看看

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-1-4 10:50:05

下载了，谢谢楼主

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-1-5 19:59:05

新入门的，还不是太懂

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-2-5 14:23:06

多谢楼主了

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-5-5 10:33:50

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-5-17 14:15:55

看看，学习了

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-5-18 15:27:15

瞧瞧看

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-7-1 20:15:43

超级棒

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-7-5 10:31:57

赞

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-24 21:19:04

看得云山雾罩的

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-8-27 20:58:11

谢谢分享

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

首页上一页下一页跳至第页

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群