全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2364 3
2016-12-01
新发现一本书,学习R语言特别好用,不信你看
你不是一直想学R语言机器学习与数据分析?新发现一本书学习R语言特别好用

我不说你就不知道(傲娇脸)

QQ截图20161201194725.png


内容简介:《R语言实战——机器学习与数据分析》系统地介绍了统计分析和机器学习领域中最为重要和流行的多种技术及它们的基本原理,在详解有关算法的基础上,结合大量R语言实例演示了这些理论在实践中的使用方法。具体内容被分成三个部分,即R语言编程基础、基于统计的数据分析方法以及机器学习理论。统计分析与机器学习部分又具体介绍了包括参数估计、假设检验、极大似然估计、非参数检验方法(包括列联分析、符号检验、符号秩检验等)、方差分析、线性回归(包括岭回归和Lasso方法)、逻辑回归、支持向量机、聚类分析(包括K均值算法和EM算法)和人工神经网络等内容。同时,统计理论的介绍也为深化读者对于后续机器学习部分的理解提供了很大助益。知识结构和阅读进度的安排上既兼顾了循序渐进的学习规律,亦统筹考虑了夯实基础的必要性。


前言数据——蕴藏巨大财富的宝藏19世纪中叶,英国伦敦曾经爆发过一场规模很大的霍乱。由于彼时人们对霍乱的致病机理还不甚了解,因此疫情在很长一段时间内都无法得到有效的控制。英国医师约翰?斯诺用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这便是数据分析在历史上展示其威力的一次成功案例。毋庸置疑,数据是一座巨大的宝藏,而我们要做的恰恰就是挖掘这座宝藏。特别是进入信息时代以来,“大数据”这个概念更是越来越多地被人们提及。很多国家甚至把大数据提升到国家战略的高度。例如,我国的“十三五”规划建议中就提出:“实施国家大数据战略,推进数据资源开放共享。”尽管“大数据”这个名词听起来很时髦,但是由此反映出来的对于数据本身的重视却并不是一个多么新鲜的现象。中国古代的施政治国观念中就非常强调掌握数据的重要性。例如商鞅变法中就提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。随着时代的进步,人们对于数据的重视程度更是有增无减,世界各国,概莫能外。列宁就曾经说过:“有许多问题,而且是涉及现代国家经济制度和这种制度之发展的最根本问题……如果不根据某个一定的纲要收集并经统计专家综合的关于某一国家全国情况的浩繁材料,就无法加以比较并认真地研究。”毛主席也曾指出:“胸中有‘数’。就是说,对情况和问题一定要注意到它们的数量方面,要有基本的数量分析。任何质量都表现为一定的数量,没有数量也就没有质量。”“大数据时代,统计学依然是数据分析灵魂。”人民网在2015年7月曾经以《大数据时代,统计学依然是数据分析灵魂》为题刊发了一篇对某位知名专家的访谈。其间,这位专家就形象地说道:“大数据是‘原油’而不是‘汽油’,不能被直接拿来使用。就像股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。”同时该篇文章也引用了美国加州大学伯克利分校迈克尔?乔丹教授的观点:  “没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。”面对大数据,现在很多人可能会时常把数据挖掘这样时髦又深奥的词汇挂在嘴边,而认为或许传统的统计学此时已经不合时宜。这种观点在我看来至少有两个致命的问题。首先,传统的统计学方法仍然在各个领域扮演着不可取代的重要作用。包括生命科学、经济学、管理学等在内的诸多学科都涉及大量的数据分析工作,并从中汲取推进各自领域进步的动力。这里所谓的数据分析工作,更多的是基于传统统计分析方法来完成的。其次,很多数据挖掘的技术又是建立在传统的统计理论基础之上的。例如,期望最大化算法中就用到了极大似然估计。不仅如此,像计量经济中常常用到的“回归”,它既是一种数据挖掘方法,同时又是传统的统计学中必不可少的重要组成部分。

机器学习VS数据挖掘在大量数据背后很可能隐藏了某些有用的信息或知识,而数据挖掘就是指通过一定方法探寻这些信息或知识的过程。另一方面,数据挖掘同时受到很多学科和领域的影响,大体上看,数据挖掘可以被视为数据库、机器学习和统计学三者的交叉。简单来说,对数据挖掘而言,数据库提供了数据管理技术,而机器学习和统计学则提供了数据分析技术。而本书所关注的重点,恰恰在于以机器学习和统计学为基础的数据分析方法。

从名字中就不难看出,机器学习最初的研究动机是为了让计算机具有人类一样的学习能力以便实现人工智能。显然,没有学习能力的系统很难被认为是智能的。而这个所谓的学习,就是指基于一定的“经验”而构筑起属于自己之“知识”的过程。小蝌蚪找妈妈的故事很好地说明了这一过程。小蝌蚪们没有见过自己的妈妈,它们向鸭子请教。鸭子告诉它们:“你们的妈妈有两只大眼睛。”看到金鱼有两只大眼睛,小蝌蚪们便把金鱼误认为是自己的妈妈。于是金鱼告诉它们:“你们妈妈的肚皮是白色的。”小蝌蚪们看见螃蟹是白肚皮,又把螃蟹误认为是自己的妈妈。螃蟹便告诉它们:“你们的妈妈有四条腿。”小蝌蚪们看见一只乌龟摆动着四条腿在水里游,就把乌龟误认为是自己的妈妈。于是乌龟又说:“你们的妈妈披着绿衣裳,走起路来一蹦一跳。”在这个学习过程中,小蝌蚪们的“经验”包括鸭子、金鱼、螃蟹和乌龟的话,以及“长得像上述四种动物的都不是妈妈”这样一条隐含的结论。最终,它们学到的“知识”就是“两只大眼睛、白肚皮、绿衣裳、四条腿,一蹦一跳的就是自己的妈妈”。当然,故事的结局,小蝌蚪们就是靠着学到的这些知识成功地找到了妈妈。反观机器学习,由于“经验”在计算机中主要是以“数据”的形式存在的,所以机器学习需要设法对数据进行分析,然后以此为基础构建一个“模型”,这个模型就是机器最终学到的“知识”。可见,小蝌蚪学习的过程是从“经验”学到“知识”的过程。相对应地,机器学习的过程则是从“数据”学到“模型”的过程。正是因为机器学习能够从数据中学到“模型”,而数据挖掘的目的恰恰是找出数据背后的“信息或知识”,二者不谋而合,所以机器学习才逐渐成为数据挖掘最为重要的智能技术供应者而备受重视。

正如前面所说的,机器学习和统计学为数据挖掘提供了数据分析技术。而另一方面,统计学也是机器学习得以建立的一个重要基础。所以,统计学本身就是一种数据分析技术的同时,它也为以机器学习为主要手段的智能数据分析提供了理论基础。可见统计学、机器学习和数据挖掘之间是紧密联系的。基于这样的认识,我们可以说本书的副标题“机器学习与数据分析”主要包含了下面几层意思。首先,如果把数据分析看作狭义上的以数理统计为基础的统计分析方法,那么本书就涵盖了为数据挖掘提供分析技术的两部分内容,即以机器学习为基础的和以统计学为基础的数据分析方法。其次,如果你把数据分析看作更为宏观的包含了数据挖掘在内的广义数据分析技术,那么为了引入以机器学习为出发点的智能分析技术,前期的统计分析知识则是帮助读者夯实数据分析基础的必要准备。


关于本书R语言是当今最为流行的统计分析语言和数据分析环境之一。它是属于GNU系统的一个自由、免费、源代码开放的软件,并拥有媲美于商业软件的强大统计分析和绘图功能。此外,R语言还拥有数以万计贡献者在为其开发各种功能包,配合这些包的使用,R的功能得到了极大拓展,几乎可以完成任何你想要的数据分析与挖掘任务。本书选择R语言作为描述语言和开发环境,不仅通过诸多详尽的实例来演示R的使用,更为那些新近接触R语言的读者提供了很好的入门指导。我们相信,无论你属于何种程度的R语言使用者,都可以很好地利用本书来增进数据分析和数据挖掘的技术和能力。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-12-1 21:19:16
这本书仔细读过,打着机器学习的名义,里面的内容却相差很多,和《machine learning in action》差距遥远。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-1 23:17:12
啊,这本书看过了,还可以
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-2 14:59:14
看这本书,感觉就是浪费时间
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群