全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1928 1
2016-03-21

       CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(28)了,欢迎观看学习!
       另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)


CDA数据分析师学习之路(28)


附赠《Python通过Thrift接口访问和使用Hive》干货视频


Hadoop集群服务器系统设置的几点总结


1. RAID

       Hadoop集群部署时,服务器要不要考虑做RAID,如果做则意味着磁盘可用空间大大减少,如果不做则不能保证数据的安全。一般从传统数据库来看,RAID是必须要做的,但是考虑到Hadoop数据备份策略,足够保证集群上数据的安全,如果要进行RAID,则还会影响系统性能,因为Hadoop集群的瓶颈重点在磁盘IO,则势必影响HDFS文件读写的速度,那么我们是否可以果断的舍弃RAID的操作呢?想到NameNode单点问题,存在大量有必要写磁盘的操作,为了保证NameNode数据安全,则需要进行RAID操作,综合这几个方面的考虑,得出结论为:NameNode要做RAIDDataNode不需要做RAID


2.atime

       Linux系统文件有三个主要的时间属性,分别是ctimeatimemtime。每次查看文件内容的时候就会更新atime,基于HDFS上的文件具有读多写少的特点,允许执行此操作则会影响集群性能,因此应该关掉。


3. Linux系统的最大进程数和最大文件打开数

       /etc/security/limits.conf文件中的参数noproc代表最大进程数,nofile代表最大文件打开数,分为软限制(soft limit)和硬限制(hard limit)soft limit允许在程序的进程中自行改变,可以突破限制,而硬限制则不行,除非程序进程有root权限。

       Hadoop集群开始投入使用时,HDFS上的文件比较少,性能很高,随着时间推移,文件数增加势必影响集群性能,此时需要进行文件的合并,同时,解除或者增加noprocnofile的设置也将会提高Hadoop集群的吞吐和性能。


感谢宋广磊老师提供文章资料!


附赠《Python通过Thrift接口访问和使用Hive》干货视频

【CDA数据分析师学习之路】Python通过Thrift接口访问和使用Hive

感谢宋广磊老师提供视频资料!



***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!

投稿联系方式:

小段老师QQ:28819897132881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************

相关链接:

CDA数据分析师就业班第四期4月10号开课啦!https://bbs.pinggu.org/thread-4160404-1-1.html


CDA大数据分析师就业班第二期4月17号开课啦!https://bbs.pinggu.org/thread-4160397-1-1.html


上一篇:


CDA数据分析师学习之路(27)https://bbs.pinggu.org/thread-4476179-1-1.html

下一篇:


CDA数据分析师学习之路(29)https://bbs.pinggu.org/thread-4495033-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-3-24 14:33:09
欢迎积极投稿,论坛币、现金、整套数据分析视频教程等你来拿哦!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群