CDA数据分析师学习之路出系列了,每篇都有数据分析、大数据相关文章和视频,各大名师主讲,每周一、二、四、五更新!CDA数据分析师学习之路已经更新到CDA数据分析师学习之路(28)了,欢迎观看学习!
另外欢迎各位坛友投稿数据分析相关视频和文章,一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频(SAS、SPSS、Java、统计理论等等)!(PS:相关文章和视频得原创!联系方式见下方,欢迎投稿!)
CDA数据分析师学习之路(28)
附赠《Python通过Thrift接口访问和使用Hive》干货视频
Hadoop集群服务器系统设置的几点总结
1. RAID
Hadoop集群部署时,服务器要不要考虑做RAID,如果做则意味着磁盘可用空间大大减少,如果不做则不能保证数据的安全。一般从传统数据库来看,RAID是必须要做的,但是考虑到Hadoop数据备份策略,足够保证集群上数据的安全,如果要进行RAID,则还会影响系统性能,因为Hadoop集群的瓶颈重点在磁盘IO,则势必影响HDFS文件读写的速度,那么我们是否可以果断的舍弃RAID的操作呢?想到NameNode单点问题,存在大量有必要写磁盘的操作,为了保证NameNode数据安全,则需要进行RAID操作,综合这几个方面的考虑,得出结论为:NameNode要做RAID,DataNode不需要做RAID。
2.atime
Linux系统文件有三个主要的时间属性,分别是ctime、atime、mtime。每次查看文件内容的时候就会更新atime,基于HDFS上的文件具有读多写少的特点,允许执行此操作则会影响集群性能,因此应该关掉。
3. Linux系统的最大进程数和最大文件打开数
/etc/security/limits.conf文件中的参数noproc代表最大进程数,nofile代表最大文件打开数,分为软限制(soft limit)和硬限制(hard limit)。soft limit允许在程序的进程中自行改变,可以突破限制,而硬限制则不行,除非程序进程有root权限。
Hadoop集群开始投入使用时,HDFS上的文件比较少,性能很高,随着时间推移,文件数增加势必影响集群性能,此时需要进行文件的合并,同时,解除或者增加noproc和nofile的设置也将会提高Hadoop集群的吞吐和性能。
感谢宋广磊老师提供文章资料!
附赠《Python通过Thrift接口访问和使用Hive》干货视频
【CDA数据分析师学习之路】Python通过Thrift接口访问和使用Hive
感谢宋广磊老师提供视频资料!
***************************************************************************
投稿流程:投稿前请加我QQ联系我,或者直接将文章或视频发送到我的邮箱,但一定要备注好您的姓名、电话、邮箱,以方便我联系您们赠送现金和视频教程的事宜!欢迎投稿!
投稿联系方式:
小段老师QQ:2881989713
邮箱:duanliangbin@pinggu.org
***************************************************************************
相关链接:
CDA数据分析师就业班第四期4月10号开课啦!https://bbs.pinggu.org/thread-4160404-1-1.html
CDA大数据分析师就业班第二期4月17号开课啦!https://bbs.pinggu.org/thread-4160397-1-1.html
上一篇:
CDA数据分析师学习之路(27)https://bbs.pinggu.org/thread-4476179-1-1.html
下一篇:
CDA数据分析师学习之路(29)https://bbs.pinggu.org/thread-4495033-1-1.html