Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-04

#23751 [3/N][Sync sglang-miles] TITO Support

原始 PR · 作者 zyzshishui · 合并时间 2026-06-04 09:45

功能 重要性 7.63 洞察度 6.00

新增 TITO 风格 chat:支持 pre-tokenized input_ids 和返回 prompt_token_ids

建议精读 `serving_chat.py` 中 `_convert_to_internal_request` 和 `_build_chat_response` 的实现,了解请求转换管线中字段优先级和错误处理的权衡。`protocol.py` 的自定义序列化方式也值得参考。对于部署运维,需注意 `skip_tokenizer_init` 场景的兼容性。

重构 重要性 6.77 洞察度 4.00

提取模拟接受长度采样函数以复用

值得合入,提高代码复用性。建议关注 `_sample_simulated_acc_len` 的用户,并考虑添加单元测试覆盖。

#27174 Add num_waiting_uncached_tokens load metric

原始 PR · 作者 cctry · 合并时间 2026-06-04 09:29

功能 重要性 7.00 洞察度 5.00

新增 num_waiting_uncached_tokens 负载指标

值得阅读以了解如何在不重复遍历缓存的情况下利用现有关联信息推导派生指标。其中 `supports_fast_match_prefix` 接口设计为不同缓存后端提供了优雅的扩展点,可作为类似场景的参考模式。

缺陷修复 重要性 8.03 洞察度 5.00

修复多 tokenizer 模式 ZMQ 绑定冲突

此 PR 值得精读,尤其是多进程通信中唯一所有者模式的实现、事件驱动的 fd 注册方式以及如何处理异步/同步上下文冲突。对于需要在多 tokenizer 环境下使用负载均衡的团队至关重要。

功能 重要性 7.06 洞察度 4.50

ZMQ IPv6 支持、bench_serving 采样参数、日志降级

该 PR 设计清晰,改动范围小但实用。建议关注 IPv6 端点格式的文档补充;bench_serving 参数已添加但未在文档中提及(可后续补充);日志降级属易用性微调。整体可安全合入。

#27195 [diffusion] doc: add ernie Image diffusion

原始 PR · 作者 mickqian · 合并时间 2026-06-04 08:45

文档 重要性 4.72 洞察度 3.00

新增 ERNIE-Image 扩散模型文档页面

如果你关注 SGLang Diffusion 的模型覆盖范围,值得浏览该文档了解 ERNIE-Image 的使用方式。对于仅关心核心推理或性能优化的开发者,可跳过。该 PR 展示了规范的 cookbook 添加流程,可供后续新模型文档参考。

#26757 Trigger scheduler diagnostics on health failure

原始 PR · 作者 yinghai · 合并时间 2026-06-04 08:19

功能 重要性 8.65 洞察度 5.00

健康检查失败时触发调度器 py-spy 与 CUDA coredump 诊断

建议所有涉及服务可靠性的团队阅读此 PR,尤其是 `dump_requests_before_crash` 和 `_handle_crash_dump_env` 的逻辑。其模块化设计和环境变量门控策略值得借鉴。

缺陷修复 重要性 6.07 洞察度 4.00

GLM-5 在 Blackwell 上改用 trtllm MHA 内核,移除 FA4 workaround

建议阅读该 PR 以理解 GLM-5 在 Blackwell 的注意力内核选型历史。核心设计决策是:在外部内核(FA4)不稳定的情况下,等待上游修复后改用更稳定的 trtllm 实现,而非长期维护 workaround。这一决策思路值得在依赖外部库时参考。

参与讨论