全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
781 0
2020-09-28
Apache Hadoop管理员提示和技巧
在这篇文章中,我将分享一些在使用Apache Hadoop环境多年以及参加许多研讨会和课程之后学到的技巧。这里的信息考虑的是2.9版左右的Apache Hadoop,但可以肯定地将其扩展到其他类似版本。
这些是构建或使用Hadoop集群时的注意事项。关于Cloudera发行版的一些注意事项。无论如何,希望对您有所帮助!
不要将Hadoop用于数百万个小文件。它会使namenode重载,并使其变慢。重载名称节点并不难。始终检查功能与文件数。Hadoop上的文件通常应大于100 MB。
名称节点中必须有1 GB的内存,可容纳约100万个文件。
节点通常在5年后失效。节点故障是H adoop中最常见的问题之一。像facebook和google这样的大公司应该在某一时刻出现节点故障。
Cloudera Manager上的MySQL没有冗余。这可能是一个失败点。
信息:fsimage文件的合并发生在辅助名称节点上。
Hadoop可以缓存块以提高性能。默认情况下,它缓存0。
您可以设置一个参数,在仅将第一个或第二个数据块复制到数据节点后,将确认消息从数据节点发送回名称  节点。这可能会使写入数据更快。
Hadoop具有机架意识:它知道哪个节点连接到了女巫交换机。实际上,由Hadoop Admin进行配置。
会不时检查文件,以验证是否有数据损坏(通常每三周一次)。这是可能的,因为数据节点存储文件校验和。
日志文件默认存储7天。
part-m-000来自mapper,part-r-000来自reducer作业。最后的数字对应于为该作业运行的减速器的数量。因此,部分r008具有9个减速器(从0开始)。
您可以更改mapper和reducers任务的log.level以获得更多信息。
mapreduce.reduce.log.level = 调试
纱线服务器检查火花的作用。localhost:4040还显示已完成的操作。
检查将namenode fsimage文件放在何处很重要。您可能要复制此文件。
? 欧都节省了大量的磁盘空间  (25%)  ,以dfs.datanode.du.reserve,对于洗牌阶段。
该阶段将被写入磁盘,因此需要空间!
当您删除文件时,它们会在删除一段时间后保留在.Trash目录中。默认时间是1天。
您可以使用水槽建造lamdba架构。? 如果你想要把数据保存在内存或磁盘水槽OU还可以指定。
关于硬件,  工作节点需要更多的内核来进行更多处理。主节点处理的不是很多。
对于 namenode,您需要更高质量的磁盘和更好的硬件(例如raid-并且raid在工作节点上没有意义)。
经验法则是:如果要存储1 TB的数据,则必须有4 TB的空间。
H adoop  应用程序通常不受CPU约束。
虚拟化可能会给您带来一些好处(更易于管理),但会影响 性能。 通常,它带来5%到30%的开销。
H adoop  不支持ipv6。您可以禁用ipv6。 您也可以   在集群内部禁用selinux。两者都有开销。
起始群集的合适大小约为6个节点。
有时,当群集太满时,您可能必须删除一个小文件才能删除一个较大的文件。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群