仅更新注释和文档,无行为变更
虽然是纯注释变更,但其中的设计解释(为什么 D2H 用独立流)以及 FIXME(统一索引)值得关注,反映了架构决策和未来演进方向。
标签列表
聚合结果
仅更新注释和文档,无行为变更
虽然是纯注释变更,但其中的设计解释(为什么 D2H 用独立流)以及 FIXME(统一索引)值得关注,反映了架构决策和未来演进方向。
修复重叠调度数据竞争,解除前向占用损失
核心逻辑改动精炼,设计巧妙(用私有流避免屏障串行化),值得深入阅读。但 AMD 和 GB 回归表明跨平台适配不充分,建议后续添加数据竞争测试和跨平台性能基准后再逐步推广。
维护 req_pool_indices 的 CPU 镜像,消除 Hisparse 每 decode 的 D2H 复制
建议团队关注此 PR 的实现思路:通过维护 CPU 镜像来避免设备-主机同步,是常见的性能优化模式。对后续调度系统优化有参考价值。
添加 mooncake_tcp 传输后端,通过 TCP 替代 RDMA
建议重点理解以下设计决策: - 选择别名而非独立 TCP 后端,避免 GPU 同步复杂性。 - 参数规范化钩子的模块化模式,便于维护和测试。 - 使用 `os.environ.setdefault` 传递环境变量的灵活性。
原始 PR · 作者 happierpig · 合并时间 2026-05-27 05:22
重构 idle batch 逻辑并修复 dp=1 场景问题
建议精读该 PR,尤其是讨论中关于 idle batch 与 `_update_gather_batch` 解耦的设计权衡。虽然改动较小,但涉及对 dp attention 同步机制的理解,对维护多 GPU 并行策略的工程师有参考价值。
原始 PR · 作者 junliu-mde · 合并时间 2026-05-26 22:01
修复 PD 模式下 top_logprobs 崩溃问题
值得合入,修复逻辑清晰,测试覆盖充分。开发者在后续涉及 prefill 结果处理时应注意与 batch_result_processor 中的转换逻辑保持对称。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-26 21:59
修复PD跨rank队列发散导致挂起的问题
建议仔细阅读 utils.py 中 `_apply_metadata_gate` 的设计:通过检查 `bootstrap_room` 而非额外 all-reduce 来同步元数据状态,降低了通信开销,是一个精巧的优化。同时注意 `_commit_transfer_to_req` 中 conditional 从重试转为直接 abort 的决策,明确了前置条件。
PP 中跳过纯 chunked prefill 批次的输出通信,释放 SM 资源提升性能
建议阅读:理解 pipeline parallelism 中 SM 占用对 kernel 延迟的影响及如何通过跳过无用通信优化。若部署 DeepSeek-V4 长输入场景(256K token),可启用该优化获得 3-7% TTFT 收益。代码实现简洁(+112 行),验证充分,值得参考。