构建更进一步万亿级云原生消息架构：Apache Pulsar 在 vivo 的探索与实践

来源：行情 2024年02月11日 12:17

量小的键值，现有时必需至不及据集移退，共享更为好的水流量巅峰防范能力。Bookie 透过至不及据集刷盘时亦会对应用软件至不及据集自动透过至不及据集排序，可以避免 Kafka 中所的随机读写。

Pulsar 的设计体系结构造成了一个大西区支撑、消费引退、精准限流、水流量最大化、并能扩缩容、失灵恢复原、顶层驱动器、尘原生容器调遣、异地多活等物理性质和优势，可以帮助炮兵部队更为好地意味着很高能用、很高引退，提很高了更为很高的优点。

2Apache Pulsar 炮兵部队管理机构有系统会

下面我们从水流量遏制和至不及据集管理机构特别，回馈 vivo 在用到 Pulsar 全过程中所的炮兵部队管理机构经验。

Bundle 的管理机构

在炮兵部队水流量遏制层面，较为极其再加要的一点就是 Bundle 的管理机构。Bundle 负责遏制用户水流量到 Broker 的具体地理分布。Broker 与 Topic 之数间不能这样一来联系，而是在 Broker 之上抽象出 Bundle 方，通过 Bundle 与 Topic 成立关系；Topic 通过名称计至不及Hash值，并散列地理分布到相反性Hash环中所，而Hash环的每一段都是一个 Bundle。另外 Load Manager 根据 Bundle 的损耗可能会将后者调出到对应的 Broker 上，将 Bundle 至不及据集驱动器在 ZooKeeper 中所。由此以来就数间接意味着了 Topic 与 Broker 之数间的联系（可参考近期 StreamNative 发布的 Broker 损耗最大化技术文章）。

表 6. Bundle 与 Topic 成立关系

这里需特别注意：

Bundle 的个至不及因素所最大化特性，因为通过相反性Hash来确认 Topic 一定会落在哪个 Bundle 上， Topic 与 Bundle 亦会共存不最大化调出，某些 Bundle 调出的 Topic 可能会较多或较不及。Bundle 越不及多，每个 Bundle 承载的 Topic 越不及不及，粒度越不及细。贫乏于 Pulsar 的损耗最大化算法，最大化特性更为好；否则若 Bundle 太大，只不过拆开都无法平衡损耗； Bundle 至不及据集和 Broker 映射元至不及据集都保障在 ZooKeeper 中所，需准备好 Bundle 至不及量的规划。

针对以上两点，我们根据 Broker 来所设 Bundle 至不及量所设成数目最主要值来遏制，还可以对水流量相当大的 Topic 持续性扩大西区，让西区匀调出到 Broker Bundle 上。

Pulsar 虽然共享了一个大西区能力，但是过多的 Topic 或者西区转化成的 lookup 也亦会对炮兵部队转化成相当大的压力。炮兵部队管理机构者需延后规划 Bundle 和西区所设，杜绝滥用。

另外对 Bundle 的操纵需特别注意：

Pulsar 本身共享了拆开操纵，可以撤除 Bundle 和 Broker 的关联关系，将 Bundle 再加新调出。线上水流量相当大时应拆开 Bundle 而不是整个名字空数间，因为拆开后者亦会避免其上的全部都是部 Bundle 与对应的其产品、消费者断开，再加新透过 lookup。利用 Bundle split 对水流量相当大的 Bundle 透过分出，缩减名字空数间的 Bundle 至不及量，缩减因素所。

总体而言，用户需特别注意水流量的最大化与炮兵部队的可靠性，在炮兵部队管理机构之初就准备好 Bundle 的至不及量管理机构和相关检验，轻率对待大应用软件 Bundle 拆开等运维操纵。

至不及据集的管理机构

接下来我们从至不及据集的驱动器、大应用软件、封禁三个特别来研究。

Ledger 反转

首先引介至不及据集擦除 ledger 的全过程。每一个 Topic 西区在短暂内只创建人一个 Ledger 保障西区擦除的 Entry 的至不及据集代管。Topic 西区擦除的至不及据集以 Entry 的形式，经过 Broker 擦除 Netty 虚拟机处理函数调用，虚拟机依次根据 Entry 的 Ledger Id，对 Ledger 参考资料至不及取模，擦除到能够FAT Ledger 参考资料，最终以 Entry Log 和 RocksDB 的索引方式驱动器。需特别注意，Ledger 是一个西区在短暂内擦除至不及据集的形式化管理机构单位，保障了这段至不及据集驱动器的 Bookie 左边。一个 Topic 西区在短暂内擦除的至不及据集只被一个广为人知 Ledger 管理机构，待该 Ledger 降到反转先决条件后才亦会封闭 Ledger 并再加新计至不及，创建人新 Ledger 继续擦除。

表 7. Ledger 反转示意

Ledger 反转后，至不及据集才亦会擦除新的至不及据集参考资料。在 Pulsar 中所，在保证 Ledger 成数目反转时数间段以及一般而言先决条件之一后即亦会 Ledger 反转：

已降到 Ledger 最主要反转时数间段；已降到 Ledger 的最主要 Entry 至不及量；已降到 Ledger 的最主要薄小。

当前值：

即亦会ledger反转的成数目时数间段： managedLedgerMinLedgerRolloverTimeMinutes=10

即亦会ledger反转的最短时数间段内：managedLedgerMaxLedgerRolloverTimeMinutes=240

即亦会ledger反转的最主要entry至不及：managedLedgerMaxEntriesPerLedger=50000

即亦会ledger反转的最主要薄小：managedLedgerMaxSizePerLedgerMbytes=2048

特别注意两个难题：

Ledger 过大：成数目反转时数间段是防止 Ledger 元至不及据集过快激增的手段，但有系统会发掘出如果 Topic 西区水流量相当大，Ledger 的也就是说值可能会远超上述所设的上限临界值。Ledger 只有在反转后才亦会创建人新的 Ledger，Ledger 过大亦会避免某段时数间段内擦除某个FAT的至不及据集过多，转化成FAT驱动器不最大化的难题；针对 Ledger 为并不一定的一些操纵也亦会直接因素所，转化成没能马上拆开至不及据集到二级驱动器、至不及据集拆开时数间段较长、还没拆开成功但 Ledger 已经大应用软件等难题。 Ledger 数间不最大化：Ledger ID 以炮兵部队维空数间透过递增。在西区的维空数间，按照 Ledger ID 对 Ledger 驱动器参考资料至不及透过取模的方式没能对多FAT透过最大化擦除。但保持 Ledger 数间的薄小相反，在一定程度上亦会对多FAT参考资料的擦除最大化有比相当大的改善。

总而言之，建议根据业务范围假消息可能会适当修改 Ledger 反转参至不及和有持续性地缩减大水流量 Topic 西区至不及量，可以防止 Ledger 过大、薄小不最大化的难题。

至不及据集大应用软件

至不及据集大应用软件主要可分四个阶段：

第一阶段：没被 Ack 的假消息

Backlog 假消息：该段至不及据集不亦会被封禁

第二阶段：已经 Ack 的假消息

第三阶段：假消息保持相反时数间段检查

Retention：对已经 Ack 的假消息的保持相反策略，按保持相反生命期和保持相反薄小所设来保持相反假消息

第四阶段：假消息封禁

Deleted：很高达 Retenion 范围的假消息则被封禁。很高达 rentention 保持相反生命期和保持相反薄小的假消息，系统会亦会从当前已经 ack 假消息的最新左边往前检查并给与已经大应用软件的 ledger，将其记号封禁。

表 8. 假消息保持相反时数间段检查与假消息封禁

从上述的假消息阶段推论来看，Pulsar 共享了相当大的假消息管理机构空数间，但也略显复杂。建议炮兵部队保障者成立简单统一的规则处理至不及据集保持相反策略，如可以所设 TTL = Retention 保持相反生命期值。

至不及据集封禁

此处引介至不及据集的物理封禁。Bookie 在处理至不及据集擦除全过程时，亦会将同短暂内的至不及据集经过排序 flush 到同一个 Entry Log 文件中所，将索引存放在 RocksDB 中所。由于多个 Ledger 的至不及据集可能会亦会同时擦除同一个 Entry Log，因此 Entry Log 之后不能被简单这样一来的封禁。对此 BookKeeper 亦会启动一个 GC（GarbageCollector）虚拟机透过检验物理封禁操纵。

表 9. 至不及据集物理封禁流程

Entry Log 保障元至不及据集信息（ EntryLogMetadata），该元至不及据集记录了 Ledger 年表、薄小与余下必需至不及据集数目。

GC 修补虚拟机在每个 gcWaitTime 时数间段较宽：

扫描 Entry Log 的元至不及据集信息，对于已经不能必需至不及据集的 entry log 这样一来透过封禁。断定是否是保证 compaction 先决条件，保证 compaction 先决条件后 GC 虚拟机亦会读取每一个 Entry 断定其是否是大应用软件，一旦大应用软件就亦会丢弃，否则亦会将至不及据集擦除新的 Entry Log。

Compaction 可分 minorCompaction 和 majorCompaction，二者差别在于临界值。当前可能会下，minorCompaction 修补较宽 1 小时，临界值 0.2；majorCompaction 修补较宽 24 小时，临界值 0.8。临界值是 Entry Log File 中所的余下必需至不及据集占到比。

minorCompactionInterval= 3600minorCompactionThreshold= 0.2majorCompactionThreshold= 0.8majorCompactionInterval= 86400

在也就是说用到中所，如果薄电脑键值的FAT比较大且至不及据集迟迟无论如何封禁，为了马上清除至不及据集，一定会按照业务范围水流量和闪存适当修改至不及据集修补较宽时数间段、必需至不及据集临界值，并配合 compaction 限速策略缩小对炮兵部队的因素所。

3Pulsar 防范有系统会

vivo 的 Pulsar 衡量防范终端体系结构如下：

表 10. vivo 针对 Pulsar 防范衡量搭建的防范体系结构

该体系结构中所：

采行 Prometheus 搜集 Pulsar 衡量；应用 Prometheus 远程驱动器物理性质将内嵌后的衡量收发到 Kafka； Druid 消费 Kafka 至不及据集后可以作为 Grafana 的至不及据集源，装配 Grafana 元件查询衡量。

为什么不用到 Prometheus 驱动器至不及据集？因为有些至不及据集较久远，一旦炮兵部队现有缩减，防范衡量至不及量级亦会很大。Prometheus 对森林资源贫乏再加，我们只采行了它的搜集能力。

下表是常用的极其再加要衡量：

表 11. 极其再加要防范衡量

衡量并不一定可分：

用户端衡量：用来排查用户端注意到的诱发 Broker 端衡量：防范 topic 水流量、修改 broker 数间水流量差距 Bookie 端衡量：排查读写延迟等难题

除了官方所衡量外，开发团队还开发了 Bundle 相关的一些衡量：

西区至不及、水流量等在 Bundle 的地理分布 Broker 端记录读写延迟的 P95/P99 值基于允诺对列意味着 Broker 端网络损耗衡量等。

4难题最佳化与最佳有系统会

损耗最大化参至不及

损耗最大化的目的是对森林资源平均调出，差别大亦会因素所可靠性。对损耗最大化所设的能够是键值水流量偏差 20% 区域内，每天最大化复杂程度在 10 次区域内，否则用户端亦会频繁断连、再加连。最佳化后的参至不及如下：

# load shedding strategy, support OverloadShedder and ThresholdShedder, default is OverloadShedderloadBalancerLoadSheddingStrategy=org.apache.pulsar.Broker.loadbalance.impl.ThresholdShedder

# enable/disable namespace Bundle auto splitloadBalancerAutoBundleSplitEnabled= false

# enable/disable automatic unloading of split BundlesloadBalancerAutoUnloadSplitBundlesEnabled= false

#计至不及新森林资源用到量时的CPU所有者再加（当前1.0）loadBalancerCPUResourceWeight= 0.0

#计至不及新的森林资源用到量时的堆内存所有者再加（当前1.0）loadBalancerMemoryResourceWeight= 0.0

#计至不及新森林资源用到量时的这样一来内存所有者再加（当前1.0）loadBalancerDirectMemoryResourceWeight= 0.0

下面三个参至不及改为零，是因为炮兵部队用到了相同的机种，开发团队更为关注水流量最大化，对内存和 CPU 不是特别关注。

以一个具体产品个案来看，其中所有 1 个 Topic、30 个西区、180 个 Bundle：

表 12. 1 个 Topic、30 个西区、180 个 Bundle 的每水流量

上表键值数间水流量差别相当大，由 Bundle unload 避免。

表 13. 1 个 Topic、30 个西区、180 个 Bundle 下，Bundle 上 Topic 西区可能会

上表可看出，有两个 Bundle 调出了四个西区，远超其他 Bundle。有系统会中所注意到一般而言难题：

最大化复杂程度很高，一天仅仅有 200 多次用户端连接频繁切换，水流量涨落大每个 Bundle 的西区至不及量地理分布差别大

表 14. 1 个 Topic、30 个西区、180 个 Bundle 的退水流量地理分布

最佳化全过程中所，极其再加要在于将西区打散到相异 Bundle 上，但西区至不及量太不及无法来作到。Topic 通过Hash算法调出到 Bundle 上在前文已经引介。此个案中所，难题在于西区至不及量不及。

于是开发团队将西区缩减到 120 个，特性如下：

键值数间水流量差别小最大化复杂程度缩减，一天仅仅有 10 次左右用户端连接切换减不及，水流量涨落比较大每个 bundle 的西区至不及量地理分布差别缩减

表 15. 1 个 Topic、120 个西区、180 个 Bundle 的每水流量

表 16. 1 个 Topic、120 个西区、180 个 Bundle 下，Bundle 上 Topic 西区可能会

表 17. 1 个 Topic、120 个西区、180 个 Bundle 的退水流量地理分布

用户端收发性能

在和上述业务范围相同的过场中所，西区至不及量缩减后，系统会反转再加启后注意到了水流量上升可能会：

表 18. 单个 Topic，30 个西区缩减到 120 个，系统会反转再加启后水流量上升

用户端装配参至不及：

maxPendingMessages=2000 （当前 1000） maxPendingMessagesAcrossPartitions=40000 （当前 50000） batchingMaxPublishDelayMicros=50 （当前 1 毫秒） batchingMaxMessages=2000 （当前 1000）

保证三个 batch 至不及据集中所的任何一个的可能会下就亦会即亦会包、收发。

表 19. 再加启后 maxPendingMessages（函数调用较宽）注意到上升

这里 maxPendingMessages（函数调用较宽）=min(maxPendingMessages, maxPendingMessagesAcrossPartitions/partitionNum) 。而西区至不及添加（30 -> 120）后，需再加启用户端才对函数调用较宽生效。再加启后 maxPendingMessages 函数调用较宽从 40000/30 = 1333 衰为 40000/120 = 333，注意到了明显上升。

另外，检验发掘出 batchingMaxMessages 调小后性能大大提很高 10 倍之多：

表 20. 单个 Topic，30 个西区缩减到 120 个，修改后性能大大提很高

建议 batchingMaxPublishDelayMicros 不要过大，确保 batchingMaxMessages 比 maxPendingMessages 要大，否则赶紧 batchingMaxPublishDelayMicros 才亦会收发。

宕机避免炮兵部队水流量渐增

某个西区函数调用满后亦会避免收发虚拟机溢，因素所所有西区的连续性收发和炮兵部队可靠性：

表 21. 督导 Kill-9 对讲机 Broker 后，其他 Broker 水流量上升

表 22. 第四个西区已满，收发虚拟机溢在 canEnqueRequest 上，赶紧时数间段长，其他没成年西区的收发也被因素所。

表 23. 极端可能会下，第四个西区已满，其他西区赶紧中所。收发虚拟机亦会在第四个西区溢赶紧，其他虚拟机没能收发。

针对这一难题的最佳化思路，首先是能者多劳，让收发快的西区尽可能会多收发；然后是将溢点从 ProducerImpl 移到 PartitionedProducerImpl；如果西区 ProducerImpl 注意到函数调用已满溢较短时数间段内，就将该西区排除。

表 24. 宕机避免炮兵部队水流量渐增最佳化思路

有系统会中所可可分能用 Producer 和不能用 Producer 两个年表。在 ① 中所，两个年表都处于子程序状态并能用；在 ② 中所，某个能用西区溢短暂后可以赶紧短暂；若不能用就移动到不能用年表中所，如 ③ 表；当西区能用数目降到临界值再进一步挪回能用年表，如 ④ 表。

经过最佳化后，宕机 Broker 水流量可以并能转移到其他 Broker：

表 25. 最佳化后 Broker 水流量分段并上涨

注：最佳化只支持者 RoundRobinPartitionMessageRouterImpl 路由策略。

在单个 ProducerImpl 对应的 Broker 注意到处理较慢、网络较慢等避免收发鼓动较慢的可能会，都可能会亦会避免收发虚拟机溢，业务范围收发假消息的速度快再进一步加最较慢的 ProducerImpl 的速度快。

5下一代展望

本文回馈了 vivo 在 Pulsar 炮兵部队管理机构与防范的经验，并引介 vivo 在损耗最大化等特别的最佳有系统会。

由于服务端的难题无法通过防范衡量透过研究，vivo 在下一代计划意味着生产端到消费端的全部都是终端防范能力。大至不及据集开发团队借此整合大至不及据集配件，支撑 Flink、Spark、Druid 等核心南岸配件截断落地。

同时，vivo 内部目前 Pulsar 与 Kafka 同时运行，开发团队将尝试基于 KoP 对流通量 Kafka 万亿水流量尝试移退，缩减 Kafka 移退效益；并追寻容器化落地，极好 Pulsar 尘原生优势。

作者简介：

全部都是提出者，vivo 大至不及据集工程师，负责 vivo 地理分布式假消息中所数间件筹建

陈建波，vivo 大至不及据集工程师，曾任薄服务应用体系结构师，负责 vivo 地理分布式假消息中所数间件的筹建

奇葩事儿：封禁用户尘至不及据集还没能恢复原，只赔 3 万；薄信键盘来了，表面积 524MB；谷歌借此将效率提很高 20%：暗示将裁员？｜ Q资讯

“不搞职级、强加于” 25 年后行不通了？Netflix 破天荒引退可分职级：气走从前员工

缺不及编程文化，捷豹陷退困境，CEO 也被赶下了台

我感到很高兴果断抛弃了 SwiftUI：它还以致于茁壮

。

免疫力低怎么提高免疫力
胃肠炎吃什么中药
喉咙痛吃什么中药效果最好
藿香正气口服液治腹泻效果好吗
肠炎吃什么药

上一篇：孩子，妈走了，你为自由了

下一篇：尾盘：美股涨跌不一道指创盘内新高后转跌