#24004 fix(moe): relocate orphan tuned configs after #23019
原始 PR · 作者 Wen-xuan-Xu · 合并时间 2026-04-29 17:00
迁移 33 个 MoE 调优配置到正确路径,修复运行时未加载的问题
尽快合入,修复内容清晰且低风险。建议在合入后验证 CI 中相关 MoE kernel 针对受影响设备的 benchmark,确认加速比恢复。也可借此机会统一配置放置流程,在 README 添加自动化校验。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Wen-xuan-Xu · 合并时间 2026-04-29 17:00
迁移 33 个 MoE 调优配置到正确路径,修复运行时未加载的问题
尽快合入,修复内容清晰且低风险。建议在合入后验证 CI 中相关 MoE kernel 针对受影响设备的 benchmark,确认加速比恢复。也可借此机会统一配置放置流程,在 README 添加自动化校验。
原始 PR · 作者 JamesBrianD · 合并时间 2026-04-29 16:58
为 MiMo-V2.5-Pro 新增 TPU 部署指南与交互面板
值得精读,特别是对部署多硬件方案感兴趣的读者。该 PR 展示了如何通过有限改动扩展部署面板支持新硬件,并处理了不同运行时(CUDA vs JAX)的差异。Review 中的讨论对文档精确性有很好的启发。
原始 PR · 作者 samuellees · 合并时间 2026-04-29 16:45
实现 NVFP4 KV cache 量化策略抽象与核心内核
值得精读,该 PR 展示了策略模式在推理引擎量化层的典型应用,接口设计清晰(抽象方法、属性、生命周期方法)。建议重点关注 `dequantize_prev_kv` 的返回值约定(FP8 dtype)以及 `needs_dequant_workspace` 标志位设计,同时留意 CUDA Graph 兼容性注释的演变以理解推理引擎对量化操作的特殊约束。阅读后可跟踪后续 PR 的完整数据流。
原始 PR · 作者 danielafrimi · 合并时间 2026-04-29 16:28
FlashInfer TRTLLM-Gen 融合 MoE 支持非门控 FP4/FP8,加速 NemotronH-120B
值得精读。该 PR 清晰展示了如何为 FlashInfer TRTLLM-Gen MoE 后端扩展非门控激活支持,包括权重对齐策略、激活类型传递和自动 backend 选择。设计中的分支权衡和测试取舍也值得关注。建议重点关注 `_align_fp8_moe_weights` 函数的对齐逻辑和 `activation_type` 参数传递链。
拆分 accept_length 为 drafts 和 tokens 两个字段
值得精读,尤其是 `EagleDraftInput` 的字段设计、CUDA 图运行器的双缓冲策略、以及 `eagle_info_v2.py` 中 `sample()` 的变异解耦。这些设计决策可以在类似需要消除隐式语义的场景中复用。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 14:48
修复 MMMU 评估正则截断多行答案
该 PR 值得精读,特别是 `_parse_explicit_multi_choice_answer` 中正则优先级的设计和测试中模块桩的隔离技巧。建议在后续类似评估脚本中参考此模式。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-29 14:47
在 HiCache 中同步 draft KV 缓存修复 accept length 退化
本 PR 修复了一个关键的 Spec+HiCache 协同 bug,设计合理(piggyback 式同步),且提供了完整的 benchmark 数据验证。此外,`_get_draft_kv_pool` 的抽取体现了良好的重构意识。建议阅读 `_maybe_register_hicache_draft` 和 `start_writing` 中的同步逻辑,理解如何在现有框架下优雅地加入辅助缓存池。
引入官方 GT 优先级并修复对齐
建议关注 GT 回退策略设计(优先级 + 存在性检查),可作为跨版本测试基础设施的参考。对于 Qwen-Image 相关开发者,需了解后处理扩展模式,便于其他模型复用。
参与讨论