全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
8341 23
2013-01-08
职业在互联网行业,经常和非结构化数据打交道(如文本、音频),开初,经常寄希望于软件,比如clementine12,但是处理根本不灵活,比如它只支持英文文本挖掘,要做中文的还得翻译,做完分析还得译回来!看过姚老师的《商业数据挖掘案例》中有关的SAS代码,但貌似也是针对英文文本的,总之要用软件,不会太省心。。中文和英文文本挖掘差异很大(可以搜索相关论文对比),因此,谋生了得自己写代码的想法,但是作为数据分析者,哪门语言比较合适呢,个人实践:python语言再合适不过,而且他有很多开源的包,可以处理很多复杂的工作,以下的附件是个人实践所得到的ppt,另外附上一份开源代码针对文本挖掘(注意,这里的代码要根据自己的需要扩充和修改,比如ppt里的结论是经过代码模块扩充和优化了的,分词部分原来的代码写得很粗糙,我将java的ANSJ分词模块植入其中,再写接口导入分词后的数据精度增加了不少;另外,要做算法对比也要自己写代码,这里的ROC曲线可不能像软件里面拖出来就用了,给一篇文章,虽然是matlab写的,但很容易改成python代码),请原谅不能将改造后的代码直接上传,但将主体代码上传了(怎么调用里面有example),另外,按照ppt里的流程绝对可以做好文本挖掘了,也为了督促大家好好学习python,写出自己的分析应用来,绝对好过对软件太依赖。所有的材料只收取4个论坛币,这些都是自己的实践结果,希望在坛子里也有一点点回报,请大家批评指正。
二类分类器的ROC曲线生成算法.pdf
大小:(273.6 KB)

只需: 1 个论坛币  马上下载


pymining.zip
大小:(565.33 KB)

只需: 1 个论坛币  马上下载


垃圾信息识别.ppt
大小:(741.5 KB)

只需: 2 个论坛币  马上下载



补充:很好的python学习文档“python核心编程”



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-1-8 09:41:07
可以做网络文本分析用的是吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-8 09:46:04
风de方向 发表于 2013-1-8 09:41
可以做网络文本分析用的是吗?
是的,忘了说,里面有朴素贝叶斯分类、代偿贝叶斯分类(效果优于朴素,貌似mout海量数据挖掘就是用的这个),还有就是k均值聚类,里面的网络图是pajek绘制
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-8 09:47:29
一般的词濒和编码等都可以做到了?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-8 09:49:40
风de方向 发表于 2013-1-8 09:47
一般的词濒和编码等都可以做到了?
词频统计是个粗糙的东西,你分词完以后可以自己统计,但是要分类聚类还是用tf-idf(修正高频低频词)作为词权吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-8 09:50:15
我想下载用,但是我没有论坛币了,怎么办呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群