【CDA就业班独家发布】CDA数据分析师学习之路（28）

1992

收藏 2016-03-21

CDA数据分析师学习之路出系列了，每篇都有数据分析、大数据相关文章和视频，各大名师主讲，每周一、二、四、五更新！CDA数据分析师学习之路已经更新到CDA数据分析师学习之路（28）了，欢迎观看学习！
另外欢迎各位坛友投稿数据分析相关视频和文章，一经选用将赠送100论坛币和现金奖励、并有机会获赠一套数据分析相关视频（SAS、SPSS、Java、统计理论等等）！（PS：相关文章和视频得原创！联系方式见下方，欢迎投稿！）

CDA数据分析师学习之路（28）

附赠《Python通过Thrift接口访问和使用Hive》干货视频

Hadoop集群服务器系统设置的几点总结

1. RAID

Hadoop集群部署时，服务器要不要考虑做RAID，如果做则意味着磁盘可用空间大大减少，如果不做则不能保证数据的安全。一般从传统数据库来看，RAID是必须要做的，但是考虑到Hadoop数据备份策略，足够保证集群上数据的安全，如果要进行RAID，则还会影响系统性能，因为Hadoop集群的瓶颈重点在磁盘IO，则势必影响HDFS文件读写的速度，那么我们是否可以果断的舍弃RAID的操作呢？想到NameNode单点问题，存在大量有必要写磁盘的操作，为了保证NameNode数据安全，则需要进行RAID操作，综合这几个方面的考虑，得出结论为：NameNode要做RAID，DataNode不需要做RAID。

2.atime

Linux系统文件有三个主要的时间属性，分别是ctime、atime、mtime。每次查看文件内容的时候就会更新atime，基于HDFS上的文件具有读多写少的特点，允许执行此操作则会影响集群性能，因此应该关掉。

3. Linux系统的最大进程数和最大文件打开数

/etc/security/limits.conf文件中的参数noproc代表最大进程数，nofile代表最大文件打开数，分为软限制(soft limit)和硬限制(hard limit)。soft limit允许在程序的进程中自行改变，可以突破限制，而硬限制则不行，除非程序进程有root权限。

Hadoop集群开始投入使用时，HDFS上的文件比较少，性能很高，随着时间推移，文件数增加势必影响集群性能，此时需要进行文件的合并，同时，解除或者增加noproc和nofile的设置也将会提高Hadoop集群的吞吐和性能。

感谢宋广磊老师提供文章资料！

附赠《Python通过Thrift接口访问和使用Hive》干货视频

【CDA数据分析师学习之路】Python通过Thrift接口访问和使用Hive

感谢宋广磊老师提供视频资料！

***************************************************************************
投稿流程：投稿前请加我QQ联系我，或者直接将文章或视频发送到我的邮箱，但一定要备注好您的姓名、电话、邮箱，以方便我联系您们赠送现金和视频教程的事宜！欢迎投稿！

投稿联系方式：

小段老师QQ：2881989713
邮箱：duanliangbin@pinggu.org
***************************************************************************

相关链接：

CDA数据分析师就业班第四期4月10号开课啦！https://bbs.pinggu.org/thread-4160404-1-1.html

CDA大数据分析师就业班第二期4月17号开课啦！https://bbs.pinggu.org/thread-4160397-1-1.html

上一篇：

CDA数据分析师学习之路（27）https://bbs.pinggu.org/thread-4476179-1-1.html

下一篇：

CDA数据分析师学习之路（29）https://bbs.pinggu.org/thread-4495033-1-1.html