Dragonfly：云原生时代的镜像与模型分发基础设施

Shengxu included in Kubernetes AI

2026-01-15 About 200 words One minute

Contents

在 AI 和云原生基础设施持续演进的 2026 年，镜像与模型分发正逐渐从“边缘优化点”转变为影响平台效率的重要环节。传统依赖中心化 Registry + CDN 的方式，在面对“大规模节点并发、大体积镜像或模型”的场景时，往往面临速度与成本的双重挑战。Dragonfly 正是在这样的背景下成长为 CNCF 毕业（Graduated）项目，并在 Ant Group、Alibaba、Datadog、DiDi、Kuaishou 等企业的生产环境中被采用，用于支撑容器与 AI 模型的高效分发。

一、Dragonfly 是什么：云原生 P2P 分发系统

Dragonfly 是一个基于 P2P 技术的云原生镜像与文件分发系统。其核心价值在于利用集群节点的闲置带宽构建自组织网络，解决大规模集群下的带宽瓶颈问题。

Dragonfly 的架构包含四个主要部分：

Manager：负责集群的全局管理、动态配置维护、RBAC 权限控制以及提供可视化控制台，是系统的管理平面。
Scheduler：P2P 网络的“大脑”，负责接收 Peer 的下载请求，根据全局拓扑和负载情况，为 Peer 调度最优的父节点（Parent Peer）下载路径。
Seed Peer：在集群中承担“热点种子”角色，负责在 P2P 网络冷启动时触发回源下载，并作为初始数据源。
Peer（Client）：部署在工作节点上，逻辑上包含两个核心组件：
- dfget：实际执行 P2P 下载任务的客户端进程，负责切片（Piece）的下载与上传。
- dfdaemon：作为代理（Proxy）拦截容器引擎（如 containerd/docker）的镜像拉取请求，并将流量重定向给 dfget 处理。

二、为什么需要 Dragonfly：中心化分发的局限

在缺乏 P2P 机制的 Kubernetes 集群中，镜像拉取通常是“每个节点直连 Registry”，在大规模场景下存在明显的痛点：

中心化瓶颈显著
当数百上千个节点同时扩容或发布时，Registry 的出口带宽和处理能力容易饱和。即便有服务端缓存，高并发请求仍可能导致延迟飙升甚至下载失败。
带宽成本压力
例如 1000 个节点拉取 3GB 镜像，中心化模式下 Registry 出口需承担约 3TB 的流量。在跨公网或跨 Region 场景下，这将产生可观的流量成本和传输延迟。
大模型分发挑战
随着 AI 工程化落地，动辄数十 GB 的模型文件分发需求日益普遍。对于这类大体积文件，传统 HTTP 下载模式在网络抖动下的恢复成本高，分发效率往往难以满足敏捷迭代的需求。

Dragonfly 通过将分发压力从“中心”分散到“集群内部”，仅需少量回源流量即可完成全集群分发。

三、核心技术设计：如何实现高效分发

1. P2P 分片与调度

Dragonfly 采用分片（Piece）传输机制。Peer 在下载过程中会持续向 Scheduler 上报 piece 完成情况，Scheduler 基于这些信息构建下载拓扑。这种机制使得每个已下载的节点都能成为后续节点的“源”，实现了带宽资源的水平扩展。

2. 多维度流量控制

为了避免分发任务抢占业务带宽，Dragonfly 提供了多层级的限流能力。虽然不同版本的配置字段（如 TotalNetLimit / PerTaskLimit）可能存在差异，但其核心逻辑通常支持：

全局与单任务限流：限制整个节点或单个任务的上传/下载速率。
业务优先级保障：部分版本支持对预热（Prefetch）流量设置更严格的限制，以优先保障在线业务的实时拉取需求。

3. 透明接管容器流量

Dragonfly 设计了对上层业务无侵入的集成方式。通过在节点上部署 dfdaemon 并配置容器运行时（如修改 containerd 的 hosts.toml 或 Docker 的 daemon.json 代理配置），即可拦截镜像拉取请求。如果 P2P 网络不可用，系统通常也支持自动降级回源，保障业务连续性。

4. 协同 Nydus 优化模型分发

在 AI 场景中，Dragonfly + Nydus 是一种常见的技术组合：

Nydus（CNCF 孵化项目）将镜像格式优化为 RAFS，支持按需加载（Lazy Loading），容器启动时无需下载完整镜像。
Dragonfly 则负责高效传输这些按需请求的数据块（Blobs/Chunks）。这种组合能显著缩短大镜像容器的启动时间，是当前云原生 AI 平台优化的主流实践之一。

四、对比与适用边界

1. 相对传统 Registry 模式

优势：

并发扩展性：节点越多，P2P 网络整体带宽越大，适合大规模并发场景。
节省出口带宽：显著降低回源流量，节约跨网传输成本。

适用边界：

在小规模集群（如节点数极少）或镜像复用率极低的场景下，P2P 的带宽收益可能无法抵消引入额外组件（Manager/Scheduler）的维护成本与资源开销。

2. 架构特点

相比于完全去中心化（如基于 Gossip 协议）的方案，Dragonfly 采用了“中心化调度（Scheduler）+ P2P 数据传输”的架构。这使得它在数据中心内部网络中能做出更全局、更精准的调度决策，但也要求运维团队保障控制平面的高可用性。

五、定位演进：从镜像加速到 AI 基础设施

CNCF 在宣布 Dragonfly 毕业时，提到了其在 AI 时代的价值。随着 Kubernetes 逐步承载更多的 AI 训练与推理任务，Dragonfly 的角色也从单纯的“镜像加速工具”演进为云原生大文件分发的重要基础设施。

对于正在构建 AI 平台的工程团队而言，结合 Dragonfly 的分发能力与 Nydus 的按需加载能力，是解决大规模模型分发、缩短作业启动时间的有效路径之一。

参考资料：