文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。文本挖掘有三个独特的关键步骤:一是分词,通过分词可以将非结构化数据转化为结构化数据;二是情感分析,定义情感强度,从文本中挖掘作者的情绪或者从评论中挖掘用户的满意度或者观点;三是去噪,即从分出的众多词中剔除干扰的无用的词,提升数据质量。
该案例有两个工作流,使用的是textmining文件夹的数据。上面一个工作流使用的是已经分过词的结构化数据,只做词云展示,数据名称为《大连旅游度假关键词频数.csv》。下面一个工作流使用的三个文本数据,展示了从读取到分词,再到词云展示,最后又做了情感分析,使用的数据名称为《yantaidujia.txt》、 《yantailvyou.txt》 、《yantaiyanglao.txt》。
通过这两个小示例,我们掌握了文本挖掘的一些基本方法。而且我们还掌握了如何将R的算法集成到工作流中,这种方式既保留了R在开发灵活性和有着丰富算法资源的优点,又解决了R操作不便和效率慢的问题。
本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599879
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝