#27085 Deduplicate PD logprob normalization
原始 PR · 作者 yeqcharlotte · 合并时间 2026-06-03 19:08
去重 PD 分离的 logprob 归一化逻辑
值得快速合入,这是典型的代码去重重构,提升一致性和可维护性。建议阅读 `batch_result_processor.py` 中的 `move_logprobs_to_cpu` 方法,理解共享的 logprob 归一化契约。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 yeqcharlotte · 合并时间 2026-06-03 19:08
去重 PD 分离的 logprob 归一化逻辑
值得快速合入,这是典型的代码去重重构,提升一致性和可维护性。建议阅读 `batch_result_processor.py` 中的 `move_logprobs_to_cpu` 方法,理解共享的 logprob 归一化契约。
显式类型化 unified cache 的 HiCache 传输钩子参数
值得精读的类型安全改进范例,展示了如何用显式关键字参数消除 `**kw` 的隐蔽问题。团队成员可参考此模式治理类似遗留代码。
移除MI35x nightly测试硬编码的 /data2 路径
此次变更为纯粹的测试基础设施清理,逻辑简单且已获 Approve。适合 CI 维护者快速合入,无需深度 review。关注模型 ID 的准确性即可。
原始 PR · 作者 sufeng-buaa · 合并时间 2026-06-03 16:43
为 Mooncake 后端添加 PD 分解追踪功能
值得精读。该 PR 展示了如何在现有 OpenTelemetry 追踪框架中安全添加模块化追踪,其 `copy_for_thread` 跨线程上下文传播设计可复用,`trace_modules` 过滤模式也值得参考。
回退 DSV32 中 NextN=2/4 支持,恢复 next_n=1
值得精读,尤其是对 speculative decoding 和 DeepGEMM 调度感兴趣的同学。回退体现了在引入复杂性能优化时对稳定性的权衡,同时自动化 code review 提示了 import 错误处理的细节可作参考。建议关注后续关联 PR 中如何更稳健地重新实现 NextN 支持。
为 UnifiedRadixTree 添加 CP 同步并修复 DSv4 连续性
值得精读,特别是 `_all_reduce_attn_groups` 的设计权衡。建议关注该 PR 是否导致 2D 并行场景下的同步覆盖不足,后续可根据需要扩展为每组独立同步。
集成 flash_mla_sparse_fwd 加速 DSv4 预填并修复长序列 chunk prefill 错误
此 PR 核心价值显著,性能改进已用 benchmark 验证。建议仔细审查 `_forward_prefill_sparse` 的缓存管理逻辑,确保跨层一致性;并考虑将特性默认开启以获取更多反馈。值得关注的设计决策包括:全量反量化 vs 选择性反量化、int64 索引转换、以及阈值硬编码的后续优化。
原始 PR · 作者 whybeyoung · 合并时间 2026-06-03 15:44
修复 SBO 下 DeepGEMM 返回 None 时的解包崩溃
建议精读。变更虽小但揭示了一个重要的配置同步问题,对于涉及 SBO 和 DeepGEMM 的工程师有学习价值。
参与讨论