#24251 [RL][TITO] Preserve whitespace in reasoning parser outputs
原始 PR · 作者 zyzshishui · 合并时间 2026-05-21 03:45
保留推理输出中的空白字符
建议阅读以了解推理解析器在处理空白与标记之间的设计权衡。尤其值得关注 `detect_and_parse` 中从全局替换到循环去除的转变,以及为何移除 `.strip()` 调用是可接受的。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 zyzshishui · 合并时间 2026-05-21 03:45
保留推理输出中的空白字符
建议阅读以了解推理解析器在处理空白与标记之间的设计权衡。尤其值得关注 `detect_and_parse` 中从全局替换到循环去除的转变,以及为何移除 `.strip()` 调用是可接受的。
将 DSA MQA logits 空闲内存比例改为可配置
本 PR 改动较小且逻辑清晰,值得关注的点是环境变量配置的运行时动态性设计(通过静态方法而非类属性获取)以及 NSA→DSA 重命名策略。建议精读 `dsa_indexer.py` 中的 `_get_mqa_logits_budget_bytes` 方法,理解预算计算流程。对于维护者,建议补充环境变量的文档说明。
修复 bench_serving 非流式推理模型内容为空导致崩溃
本 PR 改动虽小但修复明确、测试充分,建议快速合并。值得关注的设计决策是提炼共享函数而非在流式和/或非流式路径中分别维护内联拼接,这种做法提升了代码一致性和可维护性。对于编写基准测试或工具类脚本的工程师,这种小规模提取手法可借鉴。
原始 PR · 作者 jasonjk-park · 合并时间 2026-05-21 02:34
让 TARGET_VERIFY 的每请求 token 数可自定义
该 PR 虽小,但为推测解码的扩展性奠定了基础。建议阅读 spec_registry.py 和 spec_info.py 的新增接口设计,以及 trtllm_mha_backend.py 中元数据计算的统一化。关注后续可能的前向模式重构 PR。
原始 PR · 作者 merrymercy · 合并时间 2026-05-21 02:19
将 DevashishLal-CB 加入 CI_PERMISSIONS.json
无需精读。只是一个常规的 CI 权限添加操作,适用于快速合并。
修复 Mamba LRU 链表节点引用循环内存泄漏
建议合并。该 PR 定位精准、修复简洁、验证充分,属于典型的高收益低风险修复。值得学习的是其系统性的诊断方法(malloc_trim、gc.collect、DEBUG_SAVEALL)和 reviewer 提醒的统一修复范围。
引入可插拔 RadixCache 后端注册机制
该 PR 设计简洁、测试充分,值得阅读。尤其是注册机制与默认回退的组合模式,可以复用于其他需要类似扩展点的子系统。测试中的 `_RegistryIsolationMixin` 也是处理全局状态隔离的良好示例。
迁移Wan2.2 ModelOpt CI至NVIDIA官方FP8/NVFP4检查点
建议阅读:该PR演示了如何安全地迁移外部依赖并调整内部默认值。值得关注的设计决策是swap_weight_nibbles的fallback链,以及如何通过checkpoint_uses_packed_qkv保持向后兼容。测试修复的根因分析也值得学习。
参与讨论