CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(31)了,欢迎观看学习!
另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)
CDA数据分析师学习之路(31)
附赠《hive的窗口分析函数》干货视频
基于yarn的Hadoop2调优
Hadoop2推出yarn作为资源管理器,它借鉴了mesos的思想为上层应用提供统一的资源管理和调度。首先ResourceManager(RM)通过NodeManager(NM)不断得到集群整体资源的视图,这些资源包括CPU、内存等,而且是以Container的形式表现的。ApplicationMaster对应用户提交的应用,比如MapReduce,这一计算Job的数据分布在若干节点上,它首先通过RM了解数据所在节点的资源情况,一旦获得满足要求的Container,即与此节点上的NM通讯并启动相应的计算任务。相较于Hadoop1,PM与AM分别承担了NameNode分配资源和完成计算任务的两大职责,并将二者加以分离。
Yarn表示资源利用不再简单的以slot 为单位来考量,而是综合CPU、内存等所有可用资源,但是我们的计算任务,比如MapReduce依然需要通过map/reduce的Task 总数来衡量所需资源,进而通过优化blocksize、spill、buffer、merge等相关参数来优化Hadoop集群的性能。这些优化就是对通过Container获取到的资源更加合理充分的使用,最大限度的提高系统的吞吐量。
综合上述,对Hadoop2的优化分为两部分,分别为Yarn和传统的 HDFS、Mapred。那么,对于Spark而言也是如此,Yarn相关参数的设置和优化并不涵盖对计算任务如何有效使用资源的优化。当然,Yarn的推出使得Hadoop可以支持更多类型的计算任务。
感谢宋广磊老师提供视频资料!
附赠《hive的窗口分析函数》干货视频
【CDA数据分析师学习之路】hive的窗口分析函数
感谢宋广磊老师提供视频资料!
***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!
投稿联系方式:
小段老师QQ:2881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************
相关链接:
CDA数据分析师就业班第四期4月10号开课啦!https://bbs.pinggu.org/thread-4160404-1-1.html
CDA大数据分析师就业班第二期4月17号开课啦!https://bbs.pinggu.org/thread-4160397-1-1.html
上一篇:
CDA数据分析师学习之路(30)https://bbs.pinggu.org/thread-4498458-1-1.html
下一篇:
CDA数据分析师学习之路(32)https://bbs.pinggu.org/thread-4504918-1-1.html