Apache Hadoop管理员提示和技巧

846

收藏 2020-09-28

Apache Hadoop管理员提示和技巧
在这篇文章中，我将分享一些在使用Apache Hadoop环境多年以及参加许多研讨会和课程之后学到的技巧。这里的信息考虑的是2.9版左右的Apache Hadoop，但可以肯定地将其扩展到其他类似版本。
这些是构建或使用Hadoop集群时的注意事项。关于Cloudera发行版的一些注意事项。无论如何，希望对您有所帮助！
不要将Hadoop用于数百万个小文件。它会使namenode重载，并使其变慢。重载名称节点并不难。始终检查功能与文件数。Hadoop上的文件通常应大于100 MB。
名称节点中必须有1 GB的内存，可容纳约100万个文件。
节点通常在5年后失效。节点故障是H adoop中最常见的问题之一。像facebook和google这样的大公司应该在某一时刻出现节点故障。
Cloudera Manager上的MySQL没有冗余。这可能是一个失败点。
信息：fsimage文件的合并发生在辅助名称节点上。
Hadoop可以缓存块以提高性能。默认情况下，它缓存0。
您可以设置一个参数，在仅将第一个或第二个数据块复制到数据节点后，将确认消息从数据节点发送回名称  节点。这可能会使写入数据更快。
Hadoop具有机架意识：它知道哪个节点连接到了女巫交换机。实际上，由Hadoop Admin进行配置。
会不时检查文件，以验证是否有数据损坏（通常每三周一次）。这是可能的，因为数据节点存储文件校验和。
日志文件默认存储7天。
part-m-000来自mapper，part-r-000来自reducer作业。最后的数字对应于为该作业运行的减速器的数量。因此，部分r008具有9个减速器（从0开始）。
您可以更改mapper和reducers任务的log.level以获得更多信息。
mapreduce.reduce.log.level = 调试
纱线服务器检查火花的作用。localhost：4040还显示已完成的操作。
检查将namenode fsimage文件放在何处很重要。您可能要复制此文件。
? 欧都节省了大量的磁盘空间  （25％）  ，以dfs.datanode.du.reserve，对于洗牌阶段。
该阶段将被写入磁盘，因此需要空间！
当您删除文件时，它们会在删除一段时间后保留在.Trash目录中。默认时间是1天。
您可以使用水槽建造lamdba架构。? 如果你想要把数据保存在内存或磁盘水槽OU还可以指定。
关于硬件，  工作节点需要更多的内核来进行更多处理。主节点处理的不是很多。
对于 namenode，您需要更高质量的磁盘和更好的硬件（例如raid-并且raid在工作节点上没有意义）。
经验法则是：如果要存储1 TB的数据，则必须有4 TB的空间。
H adoop  应用程序通常不受CPU约束。
虚拟化可能会给您带来一些好处（更易于管理），但会影响性能。通常，它带来5％到30％的开销。
H adoop  不支持ipv6。您可以禁用ipv6。您也可以在集群内部禁用selinux。两者都有开销。
起始群集的合适大小约为6个节点。
有时，当群集太满时，您可能必须删除一个小文件才能删除一个较大的文件。
1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群