Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-02
功能 重要性 9.18 洞察度 6.00

为DeepSeek-V4推理添加SM120桌面Blackwell GPU支持

此PR值得精读,特别是如果您关注SM120/Blackwell桌面GPU上的推理或需要参考Triton内核与CUDA图兼容性设计。Triton MoE内核的融合去量化方法具有通用性。讨论中关于函数别名、环境设置和自动检测的争议也是良好的工程实践案例。

缺陷修复 重要性 6.91 洞察度 5.00

修复 kill_process_tree 因 pidfd EINVAL 崩溃

该 PR 是典型的系统兼容性修复,值得合并。建议精读 `_still_holding_resources` 和新的 `_wait_for_reap_or_raise` 实现,理解如何用轮询替代 `psutil.wait_procs` 绕过内核限制。该模式在未来处理类似 `os.pidfd_open` 兼容性问题时可复用。

功能 重要性 7.11 洞察度 5.00

为自适应推测解码添加 Prometheus 指标

该 PR 设计简洁清晰,适合作为如何为动态配置添加可观测性的参考。推荐在以下场景精读:需要为自适应或动态调整的参数添加指标暴露时;理解 `metrics_reporter` 与 `MetricsCollector` 如何协作时。

#24435 Update Qwen3-Coder docs_new NVIDIA guidance

原始 PR · 作者 wenscarl · 合并时间 2026-06-02 04:38

文档 重要性 5.24 洞察度 3.00

迁移Qwen3-Coder文档至docs_new并更新NVIDIA部署指引

建议部署 Qwen3-Coder 的用户和文档维护者精读此 PR。值得关注的设计决策包括:如何在命令生成器中模块化硬件配置(`modelConfigs` 中直接定义 ep),以及移除显式 MoE 后端标志以利用默认值,这降低了用户配置负担。

性能优化 重要性 7.29 洞察度 5.00

Cosmos3 解码后处理 GPU 化

该 PR 是聚焦且高效的性能优化,设计简洁、收益明确。值得阅读的关键点:如何用静态方法拆分 GPU 后处理和 CPU 后处理,以及如何通过控制流避免不必要的 CPU 拷贝。**建议合并**,并在未来补充单元测试以确保后处理稳定性。

参与讨论