Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-03

#27085 Deduplicate PD logprob normalization

原始 PR · 作者 yeqcharlotte · 合并时间 2026-06-03 19:08

重构 重要性 5.91 洞察度 3.00

去重 PD 分离的 logprob 归一化逻辑

值得快速合入,这是典型的代码去重重构,提升一致性和可维护性。建议阅读 `batch_result_processor.py` 中的 `move_logprobs_to_cpu` 方法,理解共享的 logprob 归一化契约。

重构 重要性 6.04 洞察度 3.00

显式类型化 unified cache 的 HiCache 传输钩子参数

值得精读的类型安全改进范例,展示了如何用显式关键字参数消除 `**kw` 的隐蔽问题。团队成员可参考此模式治理类似遗留代码。

功能 重要性 8.79 洞察度 6.00

为 Mooncake 后端添加 PD 分解追踪功能

值得精读。该 PR 展示了如何在现有 OpenTelemetry 追踪框架中安全添加模块化追踪,其 `copy_for_thread` 跨线程上下文传播设计可复用,`trace_modules` 过滤模式也值得参考。

#27138 Revert "Support NextN = 2/4 in DSV32"

原始 PR · 作者 ch-wan · 合并时间 2026-06-03 16:29

其他 重要性 7.27 洞察度 5.00

回退 DSV32 中 NextN=2/4 支持,恢复 next_n=1

值得精读,尤其是对 speculative decoding 和 DeepGEMM 调度感兴趣的同学。回退体现了在引入复杂性能优化时对稳定性的权衡,同时自动化 code review 提示了 import 错误处理的细节可作参考。建议关注后续关联 PR 中如何更稳健地重新实现 NextN 支持。

#25395 [UnifiedTree] Add CP sync

原始 PR · 作者 vladnosiv · 合并时间 2026-06-03 16:10

功能 重要性 7.05 洞察度 5.00

为 UnifiedRadixTree 添加 CP 同步并修复 DSv4 连续性

值得精读,特别是 `_all_reduce_attn_groups` 的设计权衡。建议关注该 PR 是否导致 2D 并行场景下的同步覆盖不足,后续可根据需要扩展为每组独立同步。

#25418 integrate flash_mla_sparse_fwd

原始 PR · 作者 zcnrex · 合并时间 2026-06-03 16:09

性能优化 重要性 9.18 洞察度 6.00

集成 flash_mla_sparse_fwd 加速 DSv4 预填并修复长序列 chunk prefill 错误

此 PR 核心价值显著,性能改进已用 benchmark 验证。建议仔细审查 `_forward_prefill_sparse` 的缓存管理逻辑,确保跨层一致性;并考虑将特性默认开启以获取更多反馈。值得关注的设计决策包括:全量反量化 vs 选择性反量化、int64 索引转换、以及阈值硬编码的后续优化。

参与讨论