Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

bugfix 相关 PR

2026-06-07
功能 重要性 7.95 洞察度 6.00

扩展EAGLE spec v2树推理支持page>1+topk>1

建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。

2026-06-06

#27440 [Diffusion] Avoid GPU syncs in UniPC scheduler

原始 PR · 作者 BBuf · 合并时间 2026-06-06 22:01

性能优化 重要性 6.14 洞察度 6.00

用 torch.stack 替换 torch.tensor 避免 GPU 同步

值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。

#26356 [NPU]Support torch_npu profiler patch API drift

原始 PR · 作者 L4-1024 · 合并时间 2026-06-06 21:27

缺陷修复 重要性 7.20 洞察度 4.00

新增 torch_npu 补丁 API 兼容层并更新调用方

建议 NPU 相关开发者阅读,该 PR 展示了如何平滑处理上游库的 API 漂移,并提供了可复用的兼容函数。单元测试覆盖了三种场景,值得参考。

#27426 Fix flaky test_self_e2e_pd_perturb

原始 PR · 作者 fzyzcjy · 合并时间 2026-06-06 19:31

缺陷修复 重要性 5.10 洞察度 7.00

修复KV校验测试因Radix缓存去重导致的flaky问题

值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。