#26965 [misc] update adaptive spec decoding code owners
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-02 05:08
为自适应推测解码添加代码所有者
该 PR 无需精读,属于常规的仓库维护操作,没有技术学习价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-02 05:08
为自适应推测解码添加代码所有者
该 PR 无需精读,属于常规的仓库维护操作,没有技术学习价值。
原始 PR · 作者 AliceChenyy · 合并时间 2026-06-02 05:05
为DeepSeek-V4推理添加SM120桌面Blackwell GPU支持
此PR值得精读,特别是如果您关注SM120/Blackwell桌面GPU上的推理或需要参考Triton内核与CUDA图兼容性设计。Triton MoE内核的融合去量化方法具有通用性。讨论中关于函数别名、环境设置和自动检测的争议也是良好的工程实践案例。
修复 kill_process_tree 因 pidfd EINVAL 崩溃
该 PR 是典型的系统兼容性修复,值得合并。建议精读 `_still_holding_resources` 和新的 `_wait_for_reap_or_raise` 实现,理解如何用轮询替代 `psutil.wait_procs` 绕过内核限制。该模式在未来处理类似 `os.pidfd_open` 兼容性问题时可复用。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-02 04:53
为自适应推测解码添加 Prometheus 指标
该 PR 设计简洁清晰,适合作为如何为动态配置添加可观测性的参考。推荐在以下场景精读:需要为自适应或动态调整的参数添加指标暴露时;理解 `metrics_reporter` 与 `MetricsCollector` 如何协作时。
迁移Qwen3-Coder文档至docs_new并更新NVIDIA部署指引
建议部署 Qwen3-Coder 的用户和文档维护者精读此 PR。值得关注的设计决策包括:如何在命令生成器中模块化硬件配置(`modelConfigs` 中直接定义 ep),以及移除显式 MoE 后端标志以利用默认值,这降低了用户配置负担。
日志增加 max_token_num 和 hidden_dim 信息
可快速合并,无需精读。
Cosmos3 解码后处理 GPU 化
该 PR 是聚焦且高效的性能优化,设计简洁、收益明确。值得阅读的关键点:如何用静态方法拆分 GPU 后处理和 CPU 后处理,以及如何通过控制流避免不必要的 CPU 拷贝。**建议合并**,并在未来补充单元测试以确保后处理稳定性。
新增 FrozenKVMTP 模块代码所有者
可直接合并,无需额外测试。
参与讨论