Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-21
缺陷修复 重要性 6.60 洞察度 5.00

保留推理输出中的空白字符

建议阅读以了解推理解析器在处理空白与标记之间的设计权衡。尤其值得关注 `detect_and_parse` 中从全局替换到循环去除的转变,以及为何移除 `.strip()` 调用是可接受的。

重构 重要性 5.68 洞察度 5.00

将 DSA MQA logits 空闲内存比例改为可配置

本 PR 改动较小且逻辑清晰,值得关注的点是环境变量配置的运行时动态性设计(通过静态方法而非类属性获取)以及 NSA→DSA 重命名策略。建议精读 `dsa_indexer.py` 中的 `_get_mqa_logits_budget_bytes` 方法,理解预算计算流程。对于维护者,建议补充环境变量的文档说明。

#25298 Fix bench_serving non-stream reasoning content

原始 PR · 作者 Ratish1 · 合并时间 2026-05-21 02:41

缺陷修复 重要性 6.84 洞察度 4.00

修复 bench_serving 非流式推理模型内容为空导致崩溃

本 PR 改动虽小但修复明确、测试充分,建议快速合并。值得关注的设计决策是提炼共享函数而非在流式和/或非流式路径中分别维护内联拼接,这种做法提升了代码一致性和可维护性。对于编写基准测试或工具类脚本的工程师,这种小规模提取手法可借鉴。

功能 重要性 6.29 洞察度 5.00

让 TARGET_VERIFY 的每请求 token 数可自定义

该 PR 虽小,但为推测解码的扩展性奠定了基础。建议阅读 spec_registry.py 和 spec_info.py 的新增接口设计,以及 trtllm_mha_backend.py 中元数据计算的统一化。关注后续可能的前向模式重构 PR。

缺陷修复 重要性 5.67 洞察度 5.00

修复 Mamba LRU 链表节点引用循环内存泄漏

建议合并。该 PR 定位精准、修复简洁、验证充分,属于典型的高收益低风险修复。值得学习的是其系统性的诊断方法(malloc_trim、gc.collect、DEBUG_SAVEALL)和 reviewer 提醒的统一修复范围。

功能 重要性 8.76 洞察度 5.00

引入可插拔 RadixCache 后端注册机制

该 PR 设计简洁、测试充分,值得阅读。尤其是注册机制与默认回退的组合模式,可以复用于其他需要类似扩展点的子系统。测试中的 `_RegistryIsolationMixin` 也是处理全局状态隔离的良好示例。

2026-05-20

#25857 [codex] Reland Wan2.2 ModelOpt CI checkpoints

原始 PR · 作者 BBuf · 合并时间 2026-05-20 22:15

功能 重要性 6.92 洞察度 4.00

迁移Wan2.2 ModelOpt CI至NVIDIA官方FP8/NVFP4检查点

建议阅读:该PR演示了如何安全地迁移外部依赖并调整内部默认值。值得关注的设计决策是swap_weight_nibbles的fallback链,以及如何通过checkpoint_uses_packed_qkv保持向后兼容。测试修复的根因分析也值得学习。

参与讨论