全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
6281 4
2010-07-08
中文分词:
因为TM和openNLP对中文支持不好,所以这里的分词软件采用imdict-chinese-analyzer它是中科院张华平博士开发的一款基于HHMM的智能分词软件
分词效果:

zw <- c("如果你聽到某人說他使用某軟體,然后看看效果,有些美中不足,那就叫《星光灿烂》吧!thus do not have the texts already
          stored on a hard disk, and want to save the text documents to disk")
1、去停用词:
zwfc(zw,zj1)
[1] "聽  某人  說  使用  軟  體  看看  效果  美  中  不足  星光  灿烂  thu  text  alreadi  store  hard  disk  save  text  document  
disk  time: 0.109 s"
2、不去停用词:
zwfc(zw,zj1)
[1] "如果  你  聽  到  某人  說  他  使用  某  軟  體  ,  然后  看看  效果  ,  有些  美  中  不足  ,  那  就  叫  ,  星光  灿烂  ,  吧  
,  thu  do  not  have  the  text  alreadi  store  on  a  hard  disk  ,  and  want  to  save  the  text  document  to  disk  time: 0.0
s"

中文分词对人名地名分解的仍然不好,大多分解成单字。

下面是个简单例子:
一、安装TM和rJava包,并到SUN网站安装JAVA运行环境软件包。
二、将下面的压缩包解压到c盘根目录。
三、在R中运行软件。

结果:

共五个文件
$FileList
[1] "c:/text/荷兰队长上演惊天远射.txt"      
[2] "c:/text/技术化转型路上德国人受重创.txt"
[3] "c:/text/普约尔贡献头球绝杀.txt"        
[4] "c:/text/四大天王沉沦各有难念的经.txt"  
[5] "c:/text/再战德班德西命运迥异.txt"      
-----------------------------------------
1、找出最少出现过5次的词条  ##
> findFreqTerms(dtm, 5)
[1] "乌拉圭" "西班牙"
--------------------------------------------
2、找出与"西班牙"相关度至少达0.8的词条  ###
> findAssocs(dtm, "西班牙", 0.8)
西班牙 德意志
  1.00   0.92
--------------------------------------------
去掉较少词频(40%以下)的词条后词条-文件矩阵
inspect(removeSparseTerms(dtm, 0.4))
A document-term matrix (5 documents, 5 terms)
Non-/sparse entries: 22/3
Sparsity           : 12%
Maximal term length: 5
Weighting          : term frequency (tf)
    Terms
Docs 0.0 time: 半决赛 世界杯 西班牙
   1   0     1      1      2      0
   2   1     1      1      1      5
   3   1     1      1      2      4
   4   1     1      0      3      1
   5   1     1      1      1      7
----------------------------------------
###  词典  ###  它通常用来表示文本挖掘有关词条
A document-term matrix (5 documents, 3 terms)
Non-/sparse entries: 13/2
Sparsity           : 13%
Maximal term length: 3
Weighting          : term frequency (tf)
    Terms
Docs 半决赛 世界杯 西班牙
   1      1      2      0
   2      1      1      5
   3      1      2      4
   4      0      3      1
   5      1      1      7
-----------------------------------------

http://www.pinggu.org/bbs/thread-853290-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-7-10 12:40:57
不好意思,真看不懂,out了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-6 01:57:32
文本挖掘,值得研究,能干什么,怎么干
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-6 02:02:42
好东西
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-6 09:55:24
没看懂是什么意思
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群