crackman 发表于 2010-9-3 16:58 
我觉得一本书无所谓好坏,关键是看书的角度以及看书人的背景。
爱萌是统计专业比较强的,所以更多的是从算法、数据挖掘、统计理论的角度去思考和评价
不过我本人认为,统计理论的研究最终是应用在某一个领域,无论是商业、互联网、医药、市场,用统计的理论知识来发现和解决问题。所以认为大家在做数据分析或者说数据挖掘吧,前期是识别问题,统计是工具,来解决问题的或者说发现新的问题来解决。但是我们对于问题本身大家有多少人理解正确?有多少人不就是因为对问题本身不理解而乱选择模型或者统计方法的么?对于统计出来的结果由多少人能解释的很清楚很合理?在这里存在的就是一个专业的背景,在医药行业,做市场咨询,最后最具有价值就是对数据结果的解释。记得我们上多元统计,老师一直在强调一句话,对于模型得出的结果一定要从专业的角度去评判,甚至是模型得出结果,如果在专业的层面上看无意义的,完全可以剔除掉,这就是专业知识的支持,而不是统计。所以我觉得斑竹写的书如果是面向应用的层面,我觉得应该更侧重于实际的应用,因为不是每个人都和爱萌那样专业的算法高手。
另外中国的算法实在不能和国外比,百度的搜索算法我一直都认为无法超越谷歌,这就是一个现实。
crackman说爱萌是统计专业从算法、数据挖掘、统计理论思考这是我承认的。
但是需要申明一点,我其实研究算法、数据挖掘、文本挖掘、统计理论都是完全是从应用的角度,我从来不喜欢去争论学派问题。
虽然我已经很不是学院派,但是和宝钢的数据挖掘部门老总交流时,他们还认为我过于学院派。
这个可能与我个人的理解有关。
数据挖掘需要做两方面的工作一是从算法本身去理解,二是从实际出发。从我已经发表的论文,大家将看到我是一个实际的人,不会是理论者,但绝对不是一个盲从者。原因很简单,对于股票市场的数据你可以用ARIMA模型,你也可以用GARCH模型,当然你可以用ARIMA-GARCH模型,也可以用SV模型,你也可以用TOBIT-AR-GARCH模型,你必须了解这些模型才能做出好结果,数据挖掘不是模型去适应数据,也不是数据去适应模型,需要理解模型和数据背景的人才能解决。
如果有人想到一些机构去做数据挖掘,就应该注意一点:
数据也可以杀人,而且杀人与无形之中。
每个方法都有自己的前提,至于分类有比较前言的潜类别分析等等比较前的方法,这种方法比logistics回归要好很多。
对此我和我的搭档已经做了文章进行比较,数据来源医学数据,得到了比较好的结果。等文章发出来后我将与大家分享。
最后借用高斯的一句话并进行改写送给所有做数据挖掘、文本挖掘的人。“对数据挖掘、文本挖掘的无知不是没有相关知识,而是过于依赖数据挖掘、和文本挖掘而忽视其他”------爱萌