RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘

15644

收藏 2010-07-15

应用定性数据分析包RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘。
在对访谈内容或剧本、小说部分内容进行文本挖掘时，如果用不断的剪粘保存的方法非常繁琐而且容易漏掉一些内容。好在黄荣贵开发的RQDA包可以进行文档管理和内容编码及提取，大大方便了利用tm包进行文本挖掘，既提高了效率又提高了准确性，下面举一个小例子：
1、安装RQDA包、tm包和中文分词软件（分词软件见下面链接）；
http://www.pinggu.org/bbs/thread-853290-1-1.html
2、装载RQDA包并建立一个新的工程项目；

3、输入相关文本文件；

4、进行编码和作标记；
5、双击想要提取的编码即可提取相关文本；

6、运行下面下载的程序进行文本提取、转换、分词、文本挖掘工作。
> gg <- RQDA2tm("记者" ,mf = FALSE)
>
>
> gg
A corpus with 55 text documents
>
-----------------------------------------------
> ###  去掉多余空格  ####
> reuters <- tm_map(gg, stripWhitespace)
> reuters[[1]]
这个也是临时改的？这儿应该放一个那样的桌子。
>
------------------------------------------------
> ##  全文搜索 ##
> searchFullText(gg[[1]], "是临[时]?改")
[1] TRUE
>
-------------------------------------------------
> ###  查找以某字开头、结尾等的词条  ###
> stemCompletion(gg, c("财", "政", "部"))
                  财                      政                      部
"财政部就是替**花钱的"                      ""                      ""
----------------------------------------------------
> ###  元数据管理  ###
> DublinCore(reuters[[2]], "title") <- "建国60周年"
> meta(reuters[[2]])
Available meta data pairs are:
  Author    :
  DateTimeStamp: 2010-07-15 02:06:27
  Description  :
  Heading    : 建国60周年
  ID          : 2
  Language    : eng
  Origin    :
>
-------------------------------------------------------
> ###  创建词条-文件矩阵
>
> dtm <- DocumentTermMatrix(reuters,control = list(minWordLength=2))##最短词两个字
> inspect(dtm[1:2, 3:6])
A document-term matrix (2 documents, 4 terms)
Non-/sparse entries: 0/8
Sparsity          : 100%
Maximal term length: 5
Weighting       : term frequency (tf)
Terms
Docs 10000 12 120 1966
1    0  0 0 0
2    0  0 0 0
----------------------------------------------------------------------
> ##  操作词条-文件矩阵  ##
> ##  1、找出最少出现过3次的词条  ##
> findFreqTerms(dtm, 3)
[1] "政策"
----------------------------------------------------------------
> ##  2、找出与"应该"相关度到少达0.6的词条  ###
> findAssocs(dtm, "应该", 0.6)
0.11 应该桌子临时
1.0  1.0  1.0  0.7
>
其他看上面的链接中的内容，其实生成词条-文件矩阵后还有许多工作可以做，比如用支持向量机进行文件分类、话题分类、根据话题用词频率分析作者所熟悉的行业等等……

结合RQDA和tm包进行文本挖掘.rar
大小:(22.96 KB)
只需: 50 个论坛币马上下载

本附件包括：
结合RQDA和tm包进行文本挖掘.R
RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘.txt
ftl.rqda

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

本帖隐藏的内容

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群