#23434 [Model] Qwen3ForPooledOutput: forward get_input_embeddings to inner model
原始 PR · 作者 fortunecookiee · 合并时间 2026-04-30 03:25
修复 Qwen3PooledOutput 缺少 get_input_embeddings
推荐合并,这是一个简单的修复,应尽快合入以解除 score API 对 Qwen3 分类模型的阻塞。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 fortunecookiee · 合并时间 2026-04-30 03:25
修复 Qwen3PooledOutput 缺少 get_input_embeddings
推荐合并,这是一个简单的修复,应尽快合入以解除 score API 对 Qwen3 分类模型的阻塞。
原始 PR · 作者 changminbark · 合并时间 2026-04-30 03:21
MLX 后端实现解码异步重叠调度
**值得精读**。该 PR 展示了如何利用 MLX 的 lazy evaluation 特性设计高效的 GPU 流水线,是 Apple Silicon 推理性能优化的核心里程碑。`SchedulerMlxOverlapMixin` 中的链式调度设计(两图链、链中断条件、`async_eval` 与 `finalize` 分离)具有较高参考价值。后续可以考虑扩展到 prefill/extend 链以及更鲁棒的 KV 缓存管理。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-30 03:18
扩增 CI 测试 runner 池至 H100 和 H200
推荐合并前与运维确认 `1-gpu-h100-h200` 标签已正确添加到对应 runner 池。本 PR 逻辑简单,不涉及代码逻辑变更,但引用了 #23505 的模式,值得团队在后续扩池时参考。
原始 PR · 作者 AgainstEntropy · 合并时间 2026-04-30 02:43
修复 bench_hf.py KeyError 并添加 --limit 参数
建议合并,变更小且明确修复 bug 并提升开发效率。对于关注 MMMU 评测流程的开发者可快速浏览变更。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-30 02:14
修复 fused_moe_native 死导入
值得合并,修复了一个导致服务器启动崩溃的关键 bug。建议阅读 PR 中 `fused_moe_native.py` 的导入修复方式,可作为后续重构时避免死导入的参考。
修正 host leaf 状态检查条件 bug
建议精读此 PR 的讨论和实现,理解 HiCache 驱逐状态机的微妙之处。该修复展示了分布式缓存中状态字段语义必须精确对应业务含义的重要性。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-30 01:24
添加 /rerun-group CI 命令,按测试组批量重跑
该 PR 作为一个 CI 工具改进,设计上提取公共权限检查、复用 dispatch 是值得肯定的。但是非递归 glob 问题需要修复,建议在合并前或后续 PR 中处理。整体上值得关注其设计模式,尤其是权限检查提取和组名解析的通用化思路。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 23:03
为 Mistral Medium 3.5 添加 EAGLE 推测解码支持
建议精读 `mistral_eagle.py` 和 `mistral_utils.py` 中的配置分支设计,了解如何利用已有的 Llama EAGLE 框架支持新模型。该 PR 展示了 weight name remapping 和 quant_config 传递的实践,值得参考。
参与讨论