Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

debugging 相关 PR

2026-06-07
基础设施 重要性 5.43 洞察度 4.00

在 CI 中默认启用异步断言探测

该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。

2026-06-06

#27426 Fix flaky test_self_e2e_pd_perturb

原始 PR · 作者 fzyzcjy · 合并时间 2026-06-06 19:31

缺陷修复 重要性 5.10 洞察度 7.00

修复KV校验测试因Radix缓存去重导致的flaky问题

值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。

缺陷修复 重要性 6.26 洞察度 6.00

修复 fa3 EAGLE draft-decode page_table scatter OOB

值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。

2026-06-05
2026-06-04

#26757 Trigger scheduler diagnostics on health failure

原始 PR · 作者 yinghai · 合并时间 2026-06-04 08:19

功能 重要性 8.65 洞察度 5.00

健康检查失败时触发调度器 py-spy 与 CUDA coredump 诊断

建议所有涉及服务可靠性的团队阅读此 PR,尤其是 `dump_requests_before_crash` 和 `_handle_crash_dump_env` 的逻辑。其模块化设计和环境变量门控策略值得借鉴。

2026-06-02
缺陷修复 重要性 3.99 洞察度 4.00

修复 dp-attention e2e comparator 测试 token 对齐失败

值得快速合入。该 PR 体现了对 dp-attention 跨 rank 数据布局的深入理解,修复思路清晰。对于涉及多 GPU 分布式推理的开发者,可借此 PR 了解 comparator 的 token aligner 机制。