搜索
您的当前位置:首页正文

Zookeeper-Lead选举1

来源:二三娱乐

ZAB协议全称就是ZooKeeper Atomic Broadcast protocol,是ZooKeeper用来实现一致性的算法

logicalclock:逻辑时钟,记录当前服务器参与过选举的轮次,可以看做是等于electionEpoch。

electionEpoch:每执行一次leader选举,electionEpoch就会自增,用来标记leader选举的轮次

peerEpoch:每次leader选举完成之后,都会选举出一个新的peerEpoch,用来标记事务请求所属的轮次

zxid:事务请求的唯一标记,由leader服务器负责进行分配。由2部分构成,高32位是上述的peerEpoch,低32位是请求的计数,从0开始。

      所以由zxid我们就可以知道该请求是哪个轮次的,并且是该轮次的第几个请求。

lastProcessedZxid:最后一次commit的事务请求的zxid

logicalclock、electionEpoch、peerEpoch的区别?这里先有点乱。

1、每一轮新选举,当前服务器都会将自己的logicalclock自增,推选自己,然后将携带自己的zxid,epoch,serverid等选举信息广播出去:

synchronized(this){

    logicalclock++;

    updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch()); //更新选票,自己的最新信息

}

sendNotifications(); //发送通知

2、构造广播消息,遍历发送给所有候选人

sendNotifications,构造消息,加入队列,然后由线程从队列取消息发送

ToSend notmsg = new ToSend(ToSend.mType.notification,

                    proposedLeader, //推荐人的serverid

                    proposedZxid, //推荐人的zxid,是完整的64位的

                    logicalclock, //逻辑时钟?

                    QuorumPeer.ServerState.LOOKING,

                    sid, //接收人的serverid

                    proposedEpoch);      //推荐人的epoch?

来看ToSend的构造方法:

logicalclock是给electionEpoch赋值的。就是说每次触发选举时,当前服务器先将logicalclock自增,然后将logicalclock作为自己的这次选举的epoch。

proposedEpoch赋值给peerEpoch。proposedEpoch从第1步getPeerEpoch()获取的,获取的是当前服务器的currentEpoch。

            currentEpoch,服务器当前的epoch,应该还停留在上一轮leader选举之后的epoch。这里如果当前服务器之前每一次选举都参选的话,

            这里应该currentEpoch + 1 = logicalclock(待验证?),因为logicalclock(已自增)表示发起下一次选举了。

ToSend(mType type,

                long leader,

                long zxid,

                long electionEpoch,

                ServerState state,

                long sid,

                long peerEpoch)

中间传输忽略

3、当未选定的刚Leader时,while循环从队列中获取选票,直至投票结束

Notification n = recvqueue.poll(notTimeout, TimeUnit.MILLISECONDS); //从队列中获取选票

判断选票的状态

case:LOOKING

1 接收的选票n的epoch>logicalclock,说明比当前的投票更新。说明自己的投票已经过期,无效了,则更新当前选票。

if (n.electionEpoch > logicalclock)

  logicalclock = n.electionEpoch; //将更新的投票epoch赋给自己的logicalclock

  recvset.clear(); //清空之前已经接收的投票,之前的都是过期的,投票的轮次都是旧的。

  totalOrderPredicate(...)        //对面接收的选票和当前服务器信息

这里有点不明白,下面为什么还要作对比,不是已经说明当前服务器投票过期了么,还有必要吗?

2 接收的投票是旧的,直接丢弃,退出,继续下一个循环

else if (n.electionEpoch < logicalclock)

3 接收的是同一轮投票,对比totalOrderPredicate,对比事务的全序排序

  比较顺序epoch > zxid > serverId

  return ((newEpoch > curEpoch) ||

                ((newEpoch == curEpoch) &&

                ((newZxid > curZxid) || ((newZxid == curZxid) && (newId > curId)))));

  PK选票n与当前服务器选票,如果当前服务器选票输了,则更新当前的选票,并广播自己的选票

经过3.1和3.3,说明选票n的epoch是最新的,接入到选票集合中。

recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch));

Top