ZAB协议全称就是ZooKeeper Atomic Broadcast protocol,是ZooKeeper用来实现一致性的算法
logicalclock:逻辑时钟,记录当前服务器参与过选举的轮次,可以看做是等于electionEpoch。
electionEpoch:每执行一次leader选举,electionEpoch就会自增,用来标记leader选举的轮次
peerEpoch:每次leader选举完成之后,都会选举出一个新的peerEpoch,用来标记事务请求所属的轮次
zxid:事务请求的唯一标记,由leader服务器负责进行分配。由2部分构成,高32位是上述的peerEpoch,低32位是请求的计数,从0开始。
所以由zxid我们就可以知道该请求是哪个轮次的,并且是该轮次的第几个请求。
lastProcessedZxid:最后一次commit的事务请求的zxid
logicalclock、electionEpoch、peerEpoch的区别?这里先有点乱。
1、每一轮新选举,当前服务器都会将自己的logicalclock自增,推选自己,然后将携带自己的zxid,epoch,serverid等选举信息广播出去:
synchronized(this){
logicalclock++;
updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch()); //更新选票,自己的最新信息
}
sendNotifications(); //发送通知
2、构造广播消息,遍历发送给所有候选人
sendNotifications,构造消息,加入队列,然后由线程从队列取消息发送
ToSend notmsg = new ToSend(ToSend.mType.notification,
proposedLeader, //推荐人的serverid
proposedZxid, //推荐人的zxid,是完整的64位的
logicalclock, //逻辑时钟?
QuorumPeer.ServerState.LOOKING,
sid, //接收人的serverid
proposedEpoch); //推荐人的epoch?
来看ToSend的构造方法:
logicalclock是给electionEpoch赋值的。就是说每次触发选举时,当前服务器先将logicalclock自增,然后将logicalclock作为自己的这次选举的epoch。
proposedEpoch赋值给peerEpoch。proposedEpoch从第1步getPeerEpoch()获取的,获取的是当前服务器的currentEpoch。
currentEpoch,服务器当前的epoch,应该还停留在上一轮leader选举之后的epoch。这里如果当前服务器之前每一次选举都参选的话,
这里应该currentEpoch + 1 = logicalclock(待验证?),因为logicalclock(已自增)表示发起下一次选举了。
ToSend(mType type,
long leader,
long zxid,
long electionEpoch,
ServerState state,
long sid,
long peerEpoch)
中间传输忽略
3、当未选定的刚Leader时,while循环从队列中获取选票,直至投票结束
Notification n = recvqueue.poll(notTimeout, TimeUnit.MILLISECONDS); //从队列中获取选票
判断选票的状态
case:LOOKING
1 接收的选票n的epoch>logicalclock,说明比当前的投票更新。说明自己的投票已经过期,无效了,则更新当前选票。
if (n.electionEpoch > logicalclock)
logicalclock = n.electionEpoch; //将更新的投票epoch赋给自己的logicalclock
recvset.clear(); //清空之前已经接收的投票,之前的都是过期的,投票的轮次都是旧的。
totalOrderPredicate(...) //对面接收的选票和当前服务器信息
这里有点不明白,下面为什么还要作对比,不是已经说明当前服务器投票过期了么,还有必要吗?
2 接收的投票是旧的,直接丢弃,退出,继续下一个循环
else if (n.electionEpoch < logicalclock)
3 接收的是同一轮投票,对比totalOrderPredicate,对比事务的全序排序
比较顺序epoch > zxid > serverId
return ((newEpoch > curEpoch) ||
((newEpoch == curEpoch) &&
((newZxid > curZxid) || ((newZxid == curZxid) && (newId > curId)))));
PK选票n与当前服务器选票,如果当前服务器选票输了,则更新当前的选票,并广播自己的选票
经过3.1和3.3,说明选票n的epoch是最新的,接入到选票集合中。
recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch));