Hadoop维护管理
Hadoop日常维护管理:
1.处理hadoop的datanode宕机
cd path/to/hadoop
走到hadoop的bin目录
./hadoop-daemon.sh start datanode
./hadoop-daemon.sh start tasktracker
2.处理hadoop的namenode宕机
./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start tasktracker
3.如果是新添加一个节点,需要执行以下步骤:
首先,把新节点的 IP或主机名 加入主节点(master)的 conf/slaves 文件。 然后登录新的从节点,执行以下命令:
$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker
然后就可以在master机器上运行balancer,执行负载均衡
$bin/hadoop balancer
4.处理hbase的regionserver宕机的办法
./hbase-daemon.sh start regionserver
./hbase-deamon.sh start zookeeper//
只针对有zookeeper的regionserver而且是机子需要重启的情况
5.处理hbase的master宕机的办法
./hbase-daemon.sh start master
./hbase-daemon.sh start zookeeper//
可选
6.完全重启整个集群的过程 ,首先是用root权限关闭所有节点的防火墙,/etc/init.d/iptables stop ,然后启动hadoop集群 来到hadoop的安装路径执行:./start-all.sh ,待到集群全部成功启动之后两分钟之后执行关闭hadoop文件系统的安全模式,
./hadoop dfsadmin -safemode leave
对于hadoop文件系统安全模式的解释,如下
NameNode
在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例
(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。
dfs.safemode.threshold.pct
(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。
有两个方法离开这种安全模式
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
(2)hadoop dfsadmin -safemode leave命令强制离开 用户可以通过dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:enter – 进入安全模式 leave