HMaster的failover 流程(二)

punishzhou

浏览: 141342 次

最近访客更多访客>>

perfect6566

irisYU

TieMushan

lujisen

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HBase Server端 HMaster

master failover zk

继续上一篇的master failover流程

master挂掉期间没有regionserver挂掉的情况。

昨天写着写着突然发现90 failover存在一个bug，今天测试了一下，果然存在。

当master处理zk上面的unassigned节点时，首先会去getchlidren。这个函数会获取zk unassigned节点

set watch（该节点删除触发nodedeleted事件，有子节点创建删除会触发nodeChildrenchanged）然后会对

unassigned下所有节点getdata(watch)并set watch。如果这些节点有些值为M_ZK_REGION_OFFLINE,会将该

region的regionstate置为offline，并加入rit队列，然后清空内存并重新assign出去。

这样做的目的是由于当ZK上该region的节点时offline时认为此时该region尚未open，需要重新分配。

但是有一个问题是如果这个时候region open的rpc请求已经发送出去了，那么在那台rs上面会继续处理open region这

个事件这样可能造成几个现象：

1.当rs把region open以后，master开始assign，那么该region就有可能被重新分配两次。

2.rs open region以后master assign到同一台机器，那么该assign过程中止，但是master 内存中该region数据已经

清空导致该无法进行banlance等操作。

3.由于assign动作中止，RIT中存在该region的数据且并未清除，当超时时间到以后，会重新assign，但是由于rit中的数

据和zk上的数据不匹配导致该region的数据一致存在RIT中，而且不分配，无法balance

该问题复现概率比较小，主要是由于master启动failover该查到的region在zk上处于offline状态，而且此时rs还在处理该

region。即在rs更新zk的offline状态到opening之间，failover启动并且开始assign。若要重现可在rs处理的过程sleep

一段时间，然后重启master。（ms rs发生gc时该问题可能出现概率比较大）

分享到：

HMaster的failover 流程(三) | HMaster的failover 流程

2012-06-27 21:18
浏览 1409
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论