互联网文本挖掘实践

8793

收藏 2013-01-08

职业在互联网行业，经常和非结构化数据打交道（如文本、音频），开初，经常寄希望于软件，比如clementine12，但是处理根本不灵活，比如它只支持英文文本挖掘，要做中文的还得翻译，做完分析还得译回来！看过姚老师的《商业数据挖掘案例》中有关的SAS代码，但貌似也是针对英文文本的，总之要用软件，不会太省心。。中文和英文文本挖掘差异很大（可以搜索相关论文对比），因此，谋生了得自己写代码的想法，但是作为数据分析者，哪门语言比较合适呢，个人实践：python语言再合适不过，而且他有很多开源的包，可以处理很多复杂的工作，以下的附件是个人实践所得到的ppt，另外附上一份开源代码针对文本挖掘（注意，这里的代码要根据自己的需要扩充和修改，比如ppt里的结论是经过代码模块扩充和优化了的，分词部分原来的代码写得很粗糙，我将java的ANSJ分词模块植入其中，再写接口导入分词后的数据精度增加了不少；另外，要做算法对比也要自己写代码，这里的ROC曲线可不能像软件里面拖出来就用了，给一篇文章，虽然是matlab写的，但很容易改成python代码），请原谅不能将改造后的代码直接上传，但将主体代码上传了（怎么调用里面有example），另外，按照ppt里的流程绝对可以做好文本挖掘了，也为了督促大家好好学习python，写出自己的分析应用来，绝对好过对软件太依赖。所有的材料只收取4个论坛币，这些都是自己的实践结果，希望在坛子里也有一点点回报，请大家批评指正。

二类分类器的ROC曲线生成算法.pdf
大小:(273.6 KB)

只需: 1 个论坛币马上下载

pymining.zip
大小:(565.33 KB)

只需: 1 个论坛币马上下载

垃圾信息识别.ppt
大小:(741.5 KB)

只需: 2 个论坛币马上下载

补充：很好的python学习文档“python核心编程”

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

风de方向

2013-1-8 09:41:07

可以做网络文本分析用的是吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-1-8 09:46:04

风de方向发表于 2013-1-8 09:41
可以做网络文本分析用的是吗？

是的，忘了说，里面有朴素贝叶斯分类、代偿贝叶斯分类（效果优于朴素，貌似mout海量数据挖掘就是用的这个），还有就是k均值聚类，里面的网络图是pajek绘制

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 09:47:29

一般的词濒和编码等都可以做到了？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-1-8 09:49:40

风de方向发表于 2013-1-8 09:47
一般的词濒和编码等都可以做到了？

词频统计是个粗糙的东西，你分词完以后可以自己统计，但是要分类聚类还是用tf-idf（修正高频低频词）作为词权吧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 09:50:15

我想下载用，但是我没有论坛币了，怎么办呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

antili

2013-1-8 09:50:40

风de方向发表于 2013-1-8 09:47
一般的词濒和编码等都可以做到了？

至于编码，python支持各种比如utf-8 gbk18030 gbk等等

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 09:52:42

操作起来方便吗？我想直接用钱买，如果好用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-1-8 09:56:27

风de方向发表于 2013-1-8 09:52
操作起来方便吗？我想直接用钱买，如果好用。

这里的代码是个框架，基本功能已经实现（从分词到词权计算、构造VSM模型、参与分类聚类），你要根据自己的需要修改和添加，比如你要分词精度提高，就采用我上面提到的方法，但是要把接口写好。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 10:16:49

还要自己写代码是吧？我们不会这东西的，可以看懂吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-1-8 10:18:23

风de方向发表于 2013-1-8 10:16
还要自己写代码是吧？我们不会这东西的，可以看懂吗？

python代码很简单的，很容易看懂

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 10:36:18

我想下载下不了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-1-8 21:36:44

风de方向发表于 2013-1-8 10:36
我想下载下不了

邮箱私信给我，我发给你

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风de方向

2013-1-8 23:29:03

antili 发表于 2013-1-8 21:36
邮箱私信给我，我发给你

太感谢了，我已经发过去了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wq8506@sina.com

2013-2-4 10:09:02

楼主辛苦了构造vsm的代码是哪段啊

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Bridgenc

2013-2-4 11:50:37

thanks for sharing. Useful

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

heyflypig

2013-2-6 16:17:48

哇下来学习

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

antili

2013-2-8 12:34:52

wq8506@sina.com 发表于 2013-2-4 10:09
楼主辛苦了构造vsm的代码是哪段啊

VSM是为了实现文本的向量化，在math包下面，就是构造VSM，也就是矩阵化（注：因为是高维向量，所以采用稀疏矩阵格式 'csr' 存储）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hardwood

2013-2-9 01:04:06

MARK
THANKS

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liyang31163150

2014-8-12 23:51:39

好东西学习了，不过没有金币了，可否传递给我一份，我的邮箱 liyang31163150@163.com 谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

olympic

2014-8-13 20:10:34

k～度娘搜一堆

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

complicated

2015-1-12 13:39:33

好工作，非常感谢楼主！
请教一下，这个项目是把ansj拿到python里面用了吗？看了下代码好像用的是mmseg呢？
我想在python里调ansj的分词算法，能帮帮我吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

YasselBing

2015-1-18 21:01:44

请问楼主主要做的是text mining哪个方面？实体？情感？关系？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

q41563201

2015-3-22 12:52:26

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群