理论背景
在当前pegasus balancer的实现中,meta server会定期对所有replica server节点的replica情况做评估,当其认为replica在节点分布不均衡时,会将相应replica进行迁移。
在balancer生成决策过程中需要考虑的因素有:
- 对于任意表,其partition在节点上的分布要均衡,这其中包括如下几个方面:
- 某个partition的三个副本不能全部落在一个节点上
- primary的数量要均摊
- secondary的数量也要均摊
- 如果发现primary分配不均衡时,首先考虑的策略应该是对primary进行角色切换,而不是直接就进行数据拷贝
- 不仅要考虑节点间的负载均衡,也要尽量保证节点内各个磁盘的replica个数是均衡的
优化Ford-Fulkerson
上面讲到,当primary分布不均衡时,首先考虑的策略是对进行角色切换,也就是说,需要寻找到一条从路径,将primary从“多方”迁移到“少方”。将迁移的primary数量作为流量,很自然的我们就想到了Ford-Fulkerson,即:
- 寻找一条从source到sink的增广路径
- 按照增广路径修改各边权重,形成残差网络
- 在残差网络中继续步骤1,直到找不到增广路径为止。
但是我们又不能直接套用Ford-Fulkerson。原因在于第2步中,按照Ford-Fulkerson,增广路上的一条权重为x的边意味着从A流向B的primary的个数为x,此时形成残差网络中,该边的权重需要减去x,然而其反向边也同时增加x(反向边的作用用于提供一个调整的机会,因为之前形成的增广路径很有可能不是最大流,该反向边用于调整此前形成的增广路径,具体参考Ford-Fulkerson算法)。但是在我们的模型中,反向边增加x是不合理的,例如,对于Partition[Primary: A, Secondary: (B, C)],Primary从A向B流动,最终使得Partition成为[Primary: B, Secondary: (A, C)],这时意味着:
- A到B的流量减少
- A到C的流量减少
- B到A的流量增加
- B到C的流量增加
这显然与Ford-Fulkerson的残差网络的反向边的权重变化是不同的。 所以我们将算法修改如下:
- 按照当前的partition分布生成图结构,并根据Ford-Fulkerson算法,找到一条增广路径
- 根据找到的增广路径,构造primary角色切换的决策动作。并在集群中执行该动作,生成新的partition分布
- 根据新的partition分布,迭代步骤1,一直到不能找到增广路径
从上面可以看出,该算法主要是对第2步进行了修改,并非像Ford-Fulkerson算法那样简单的进行边权重修改。
NOTE:我们在执行Ford-Fulkerson进行primary迁移的时候,是针对单个表的,也就是说构造网络、执行角色切换都是针对单个表的,当要对多个表进行迁移,则只要循环对所有表各执行上述流程就可以了。
当然,有可能我们执行完上述算法后,集群负载仍然不平衡,此时说明通过primary切换已经无法达到集群平衡了,那么接下来就必须要进行primary迁移了(即背景介绍中讲到的进行数据拷贝)。 同样,在执行完primary迁移后,也要对secondary进行迁移。但是secondary迁移就不用像primary这么复杂还要考虑角色切换了(因为在做primary迁移时能切换的已经切换过了),此时直接进行数据拷贝就可以了。 下面我们分别对这几个点进行详细讲解。
Primary负载均衡
Primary角色切换是Pegasus balancer整体逻辑的核心部分,先看一下这一块是如何实现的。
构造Ford-Fulkerson图
根据上文所述,primary角色切换采用的是改进Ford-Fulkerson来实现的,Ford-Fulkerson执行的第一步就是要构造partition分布图,其构造方式如下:
- 记N为某个表partition的数目,M为replica server节点数目
- 图中增加两个点source和sink,分别代表源点和汇点
- 如果某个节点A上primary的数目x >= N/M, 则从source到A添加一条有向边,边的权重为x - N/M,表示可以从该节点向外流出x - N/M个primary;反之,如果节点B上的primary数目y < N/M,则添加一条B到sink的有向边,其权重为N/M - y,表示可以向B流入N/M - y个primary
- 如果节点A上有一个primary,其对应的secondary在结点B上,则为A->B的有向边的权重+1
上图所示为在3 replica server集群上,一个8分片表的图情况:
- 由于N=8, M=3,则N/M = 2
- 由于只有节点B上的primary数量>2,则源点只指向B,其权重为B节点上的primary数量 - N/M = 6 - 2 = 4;其他节点则指向汇点t,其权重均为1
- 节点B上有6个primary其相应的secondary在C和D上,所以B->C和B->D上权重等于6。同理可以得出D->B, C->D, D->C的权重均为1
获取增广路径
对于获取增广路径,有很多中不同的方法,这里我们采取的改进dijstra算法。众所周知dijstra算法是一种贪心策略,在这里依然依据贪心算法进行修改。主要改动点有如下两点:
- 对于所有未访问过的节点,依据贪心算法,获取源节点到这些节点的容量,最后选取拥有最大容量的点。由于我们是获取最大流,而dijstra却是获取最短路径,所以在选取节点的时候与dijstra策略稍有不同。
- 根据获取到的节点,更新源节点到所有节点的流量。由于增广路的流量等于该路径上所有边容量的最小值,所以这里更新的时候与dijstra也有所不同。
这里粘贴上代码,并加上必要的注释以帮助理解
void shortest_path(std::vector<bool> &visit,
std::vector<int> &flow,
std::vector<int> &prev,
std::vector<std::vector<int>> &network)
{
int pos, max_value;
flow[0] = INT_MAX;
int graph_nodes = network.size();
while (!visit[graph_nodes - 1]) {
pos = -1, max_value = 0;
for (int i = 0; i != graph_nodes; ++i) {
// 在这里获取拥有最大流的节点,用于满足1
if (visit[i] == false && flow[i] > max_value) {
pos = i;
max_value = flow[i];
}
}
if (pos == -1)
break;
visit[pos] = true;
for (int i = 0; i != graph_nodes; ++i) {
// 这里的条件主要用于满足2,也就是说,已经获取了最大流节点了,根据其去更新其他源节点到其他节点的流
if (!visit[i] && std::min(flow[pos], network[pos][i]) > flow[i]) {
flow[i] = std::min(flow[pos], network[pos][i]);
prev[i] = pos;
}
}
}
}
primary角色切换
当获取到增广路径之后,接下来的工作则是按照获取到的路径进行primary角色切换了。在了解具体算法前,先看一下几个变量与结构的定义:
- typedef std::map<std::string, int> disk_load: 表示磁盘负载,其key是disk tag,value则是该磁盘上的primary/partition count
- std::vector<int> prev: 表示该增广路径,prev[i]表示该路径上节点i的前置节点
算法具体执行步骤如下:
- 依次遍历增广路径中的每个节点(current),并获取其在增广路径上的相邻节点(prev)
- 获取current和prev两个节点的磁盘负载(disk_load *current_load和disk_load *prev_load)
- 对prev中的每一个primary,查找其在current中是否有相应的secondary,如果有的话,则将该primary放入到potential_moving中,表示有可能move的primary
- 通过增广路径,可以获取到从prev应该move多少个primary到current上(plan_moving)
- 对于potential_moving中的所有的primary,选择plan_moving个磁盘负载差最大的primary(prev中primary所在的磁盘的负载 - current中相应的secondary所载磁盘的负载),将选择出来的这些primary进行角色切换。这样选择的优点是不仅可以优化节点间的负载,同时还可以兼顾到磁盘的负载
copy primary
当没有成功获取增广路径时,则说明简单通过角色切换的方式已经无法达到负载均衡了,必须通过迁移primary来实现了。 迁移primary算法的实现相对简单,其具体执行步骤如下:
- 将节点按照primary数量按从小到大排序,得到pri_queue
- 对pri_queue上,id_min始终指向pri_queue的头结点,id_max始终指向pri_queue的尾节点,如下图所示:
+------+------+------+------+------+------+------+------+ | | V V id_min id_max
- 对当前id_max上的所有primary,分别找到其对应的磁盘并获取其磁盘负载,选择负载最大的磁盘及其对应的primary,进行迁移
- 对当前id_min/id_max指向的primary数量分别+1/-1。重新排序,并循环执行上述步骤,直到id_min节点上的primary数量 >= N/M,此时说明达到了平衡
NOTE: 上述构建图、查找增广路径、move primary和copy primary步骤都是针对一个表进行的操作,对于集群上的多个表,都要执行一次上述步骤。
Secondary负载均衡
上述讲解了primary负载均衡,当然secondary也同样需要负载均衡,否则的话可能会出现不同节点上primary均衡,但是partition总数不均衡的情况。 因为在做primary迁移时已经做过角色切换了,secondary迁移就不用像primary这么复杂,不用考虑角色切换的问题了。此时直接进行copy就可以。因此secondary的负载均衡,直接采用copy primary一样的算法实现,这里不再赘述。 同理,secondary也要对所有表分别进行负载均衡。
Conlusion
对所有表执行完上述步骤也只是查找了一次增广路径而已,我们知道对于最大流问题,可能要查找多个增广路径才能够真正找到最大流。所以我们需要根据执行后集群是否处于load balance的状态来判断是否还要继续查找增广路径。