Hadoop维护管理

2911

收藏 2014-05-28

Hadoop维护管理

Hadoop日常维护管理：

1.处理hadoop的datanode宕机

cd path/to/hadoop

走到hadoop的bin目录

./hadoop-daemon.sh start datanode

./hadoop-daemon.sh start tasktracker

2.处理hadoop的namenode宕机

./hadoop-daemon.sh start namenode

./hadoop-daemon.sh start tasktracker

3.如果是新添加一个节点，需要执行以下步骤：

首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令：

$ cd path/to/hadoop

$ bin/hadoop-daemon.sh start datanode

$ bin/hadoop-daemon.sh start tasktracker

然后就可以在master机器上运行balancer，执行负载均衡

$bin/hadoop balancer

4.处理hbase的regionserver宕机的办法

./hbase-daemon.sh start regionserver

./hbase-deamon.sh start zookeeper//

只针对有zookeeper的regionserver而且是机子需要重启的情况

5.处理hbase的master宕机的办法

./hbase-daemon.sh start master

./hbase-daemon.sh start zookeeper//

可选

6.完全重启整个集群的过程，首先是用root权限关闭所有节点的防火墙，/etc/init.d/iptables stop ，然后启动hadoop集群来到hadoop的安装路径执行：./start-all.sh ，待到集群全部成功启动之后两分钟之后执行关闭hadoop文件系统的安全模式，

./hadoop dfsadmin -safemode leave

对于hadoop文件系统安全模式的解释，如下

NameNode

在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例

（1- dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。

dfs.safemode.threshold.pct

（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式，否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。

有两个方法离开这种安全模式

（1）修改dfs.safemode.threshold.pct为一个比较小的值，缺省是0.999。

（2）hadoop dfsadmin -safemode leave命令强制离开用户可以通过dfsadmin -safemode $value来操作安全模式，参数$value的说明如下：enter – 进入安全模式 leave

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享