Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-14
重构 重要性 9.18 洞察度 5.00

回退MoE路由捕获机制到共享内存方案

建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策(共享内存 vs. device pipeline)值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户,需评估移除字段的影响。

功能 重要性 9.00 洞察度 5.00

为 V1 注意力子系统新增 TOKENSPEED_MLA 后端,优化 Blackwell SM100 上 DeepSeek R1 的 prefill / decode。

值得精读。本 PR 展示了如何在 V1 注意力后端生态中集成一个高性能定制后端,从 backend 类实现、注册、platform 优先级到测试和 benchmark 的最佳实践均有涉及。review 中指出的 scale 缓存和 fallback 设计问题可作为后续改进的参考。建议关注后续修复提交(若有)以解决遗留风险。

缺陷修复 重要性 5.78 洞察度 5.00

修复 ROCm Aiter MoE padding 对齐问题提升性能

值得合并。改动小而精,有明确的性能收益和充分的 benchmark 数据支持。建议关注后续对非标准形状模型的进一步验证。

#42598 [CI][XPU] skip ut of offload connector

原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13

基础设施 重要性 2.55 洞察度 2.00

跳过 XPU CI 中 offload connector 测试

该 PR 为小型 CI 配置修复,无需精读。但可关注关联 PR #36423 的进展,以便及时恢复测试。

缺陷修复 重要性 6.62 洞察度 5.00

修复 VLM 包装模型上 EPLB 初始化崩溃

值得精读的 Bugfix PR,展示了如何处理协议接口与模型包装之间的兼容性问题。它同时修复了三条代码路径,模式清晰。gemini-code-assist 提出的重构建议(提取 helper)值得后续采纳。

#41918 [XPU][CT] Support mxfp8 moe model

原始 PR · 作者 jikunshang · 合并时间 2026-05-14 09:47

功能 重要性 7.01 洞察度 5.00

XPU 支持 MXFP8 MoE 模型推理

建议精读 `xpu_moe.py` 中的类设计,特别是 `_supports_quant_scheme` 的分层覆盖模式,可用于后续新增量化方案。其余文件修改较小,可快速浏览。

参与讨论