职业在互联网行业,经常和非结构化数据打交道(如文本、音频),开初,经常寄希望于软件,比如clementine12,但是处理根本不灵活,比如它只支持英文文本挖掘,要做中文的还得翻译,做完分析还得译回来!看过姚老师的《商业数据挖掘案例》中有关的SAS代码,但貌似也是针对英文文本的,总之要用软件,不会太省心。。中文和英文文本挖掘差异很大(可以搜索相关论文对比),因此,谋生了得自己写代码的想法,但是作为数据分析者,哪门语言比较合适呢,个人实践:python语言再合适不过,而且他有很多开源的包,可以处理很多复杂的工作,以下的附件是个人实践所得到的ppt,另外附上一份开源代码针对文本挖掘(注意,这里的代码要根据自己的需要扩充和修改,比如ppt里的结论是经过代码模块扩充和优化了的,分词部分原来的代码写得很粗糙,我将java的ANSJ分词模块植入其中,再写接口导入分词后的数据精度增加了不少;另外,要做算法对比也要自己写代码,这里的ROC曲线可不能像软件里面拖出来就用了,给一篇文章,虽然是matlab写的,但很容易改成python代码),请原谅不能将改造后的代码直接上传,但将主体代码上传了(怎么调用里面有example),另外,按照ppt里的流程绝对可以做好文本挖掘了,也为了督促大家好好学习python,写出自己的分析应用来,绝对好过对软件太依赖。所有的材料只收取4个论坛币,这些都是自己的实践结果,希望在坛子里也有一点点回报,请大家批评指正。
补充:很好的python学习文档“python核心编程”