重构 MXFP4 MoE 为 oracle 模式,统一后端选择并简化代码库。
建议工程师精读此 PR,特别是 oracle/mxfp4.py 和新的专家类,以理解 oracle 模式的设计决策和 MXFP4 的后端选择逻辑。关注 review 中解决的初始化和硬编码问题,以及如何统一不同后端的支持方法。对于维护者,需注意潜在的回归风险和测试覆盖。
A high-throughput and memory-efficient inference and serving engine for LLMs
重构 MXFP4 MoE 为 oracle 模式,统一后端选择并简化代码库。
建议工程师精读此 PR,特别是 oracle/mxfp4.py 和新的专家类,以理解 oracle 模式的设计决策和 MXFP4 的后端选择逻辑。关注 review 中解决的初始化和硬编码问题,以及如何统一不同后端的支持方法。对于维护者,需注意潜在的回归风险和测试覆盖。
为ROCm平台新增get_device_uuid方法,支持Verl应用的PPO和异步用例。
这是一个小而精的PR,适合关注ROCm支持或平台抽象实现的工程师精读。注意错误处理的设计和边界检查的添加,这些是防御性编程的好例子。
修复混合模型使用 --calculate-kv-scales 时导致 FP8 KV 缓存比例损坏的 bug。
建议阅读此 PR,以了解混合模型与量化校准的交互问题,以及如何安全地处理弃用选项。重点关注 `HybridAttentionMambaModelConfig.verify_and_update_config()` 方法的设计决策,包括警告日志和配置修改的逻辑。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-20 15:43
修复 Eagle 投机解码在 CUDA 图重放时草稿 logits 未写入的问题,确保概率拒绝采样的正确性。
对于使用 Eagle 投机解码和 CUDA 图的工程师,建议精读此 PR,特别关注状态从 RequestState 移至 Speculator 的设计决策,以及 review 中关于数值精度的讨论。同时,可参考相关 PR 如 38045 以了解拒绝采样功能的更多上下文。
修复Qwen3.5模型的LoRA适配器支持,解决IndexError问题。
该PR值得精读,特别是模型层LoRA兼容性设计决策,如分离in_proj_qkvz层以处理GDN结构,这为其他支持LoRA的模型提供参考。同时关注gemini-code-assist[bot]提出的packed_modules_mapping修复是否已正确实施。
原始 PR · 作者 jhsmith409 · 合并时间 2026-03-20 07:21
修复 Qwen3.5 GDN 层在量化模型下因 MergedColumnParallelLinear 无 weight 属性而抛出的 AttributeError。
建议关注 Qwen 模型维护和量化支持的开发者精读此 PR,以了解 MergedColumnParallelLinear 在量化时的属性访问差异和形状计算调整。变更虽小,但揭示了量化层与标准线性层之间的重要设计权衡。
移除MoE层的'naive' all2all后端选项,并重命名相关属性。
建议精读此PR以了解MoE后端配置的演进,特别是属性重命名的设计决策,这有助于未来类似重构。关注`vllm/model_executor/layers/fused_moe/config.py`中的属性变更,以及配置验证中的fallback机制,可作为清理已弃用选项的参考范例。
重构DefaultMoERunner的forward方法,简化MoE模块代码结构。
推荐精读此PR,关注设计决策如模块化拆分、流同步处理和分派策略,这些为后续MoE优化奠定基础。
参与讨论