Whisper 自动语言检测:单次请求完成检测+转录
值得精读。该 PR 展示如何利用 SGLang 的结构化生成(regex)实现多阶段约束解码,将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性(只剥离已知 Whisper 令牌,避免破坏用户文本)。
SGLang is a high-performance serving framework for large language models and multimodal models.
Whisper 自动语言检测:单次请求完成检测+转录
值得精读。该 PR 展示如何利用 SGLang 的结构化生成(regex)实现多阶段约束解码,将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性(只剥离已知 Whisper 令牌,避免破坏用户文本)。
标记 GB300 Pro DeepSeek V4 配方已验证
可直接合入。团队成员可重点关注 GB300 Pro 的实际测试结果,若后续发现 mem-fraction-static 值需调整,可进一步优化。
为 GLM-4.7-Flash 添加 H100 Triton MoE 配置
建议合并,但需同时更新 `supported_triton_versions` 注册 `triton_3_5_1` 目录,或调整配置目录为现有支持版本目录,以确保配置被正常加载。
在 docs_new 中添加 MSProbe 调试指南
建议快速合并。此 PR 为团队开发者提供了重要的调试工具文档,评审已通过,技术争议已澄清。对于关注 NPU 调试和模型精度问题的工程师,值得仔细阅读文档中的配置与示例部分。
修复 Kimi-K2.6 Quark MXFP4 加载的两个 bug
值得关注的设计决策:将 prefix 传递逻辑从仅限 ModelSlimConfig 扩展到 QuarkConfig,体现了类似需求应统一处理的模式。packed_modules_mapping 的扩展应逐步迁移到模型类内部声明(见 TODO 注释)。
拒绝 pp_max_micro_batch_size=0 避免生成死锁
值得合入的快速 bugfix,设计精巧(双重防护)。可作为防御性编程的示例。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-27 13:33
升级 transformers 5.6.0 并修复权重键映射
建议开发者在升级后密切关注多模态模型的权重加载日志,确认无 `KeyError`。维护者可以考虑为权重键映射编写单元测试(如检查已知 checkpoint 的键转换正确性),防止未来回归。本 PR 的设计决策——在自定义加载器中手动声明键映射——是处理上游 breaking change 的实用模式,值得类似场景借鉴。
编码器健康检查升级为真实功能验证
值得精读,特别是健康检查何时跳过、模态选择策略以及分布式 TP 一致性处理的权衡。适合作为类似 health check 模式(忙时跳过、最小负载)的参考实现。
参与讨论