Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 01:25 同步状态:空闲 下次计划:2026-05-31 02:25

PR 列表

更多筛选
2026-04-28
缺陷修复 重要性 5.01 洞察度 3.00

修复动态形状编译测试在 torch 2.12 中的脆弱性

该 PR 适合快速合入,解决 torch 2.12 升级后的测试回归。变更简单,review 已通过。值得关注的是「用更可靠的数值比较替代字符串断言」的测试设计思路,适用于其他脆弱测试场景。

#41006 [Model][DSV4] Support base model

原始 PR · 作者 jeejeelee · 合并时间 2026-04-28 08:16

功能 重要性 8.22 洞察度 6.00

支持 DeepSeek V4 Base 模型(FP8 专家)

值得精读,尤其是 `DeepseekV4FP8Config.expert_dtype` 的 lazy 解析设计——这是一种解决 config 对象构造与实际配置上下文分离之间的常见模式,代码风格清晰。此外,观察 `_make_deepseek_v4_weights_mapper` 如何根据运行时属性动态选择权重映射也很有参考价值。建议关注后续是否补充单元测试。

#41019 [xpu] bump up vllm-xpu-kernel v0.1.7

原始 PR · 作者 jikunshang · 合并时间 2026-04-28 08:04

基础设施 重要性 2.18 洞察度 2.00

升级 XPU 内核至 v0.1.7 并移除挂起测试

变更简单、安全,可直接合并。建议关注后续 CI 中 lora 相关测试的状态,并跟进 test_qwenvl.py hang 问题的根因修复。

性能优化 重要性 7.99 洞察度 6.00

跳过草稿预填充前的注意力元数据重建

该PR值得精读,尤其是对v1推测解码架构和CUDA图捕获流程感兴趣的开发者。`PrefillEagleCudaGraphManager`与`DecodeEagleCudaGraphManager`的拆分设计可复用。由于缺少测试覆盖和潜在的签名不匹配风险,建议合入前补充至少一个端到端测试用例验证不同推测配置。

功能 重要性 7.05 洞察度 4.00

补充ROCm量化注册并修复测试

该PR已合并,值得所有维护ROCm后端的工程师精读。核心学习点包括:(1)平台抽象层如何通过`supported_quantization`列表控制量化方法可见性;(2)测试中通过`is_cuda_alike()`而非`is_cuda()`实现多平台兼容的模式;(3)`get_current_memory_usage`应使用`max_memory_allocated`而非`total-free`以确保准确性。对于关注Quark量化或MXFP4 MoE的开发者,`quark_moe.py`中的仿真条件设计值得参考。

性能优化 重要性 7.18 洞察度 6.00

更新TRTLLM MoE路由枚举,新增SigmoidRenorm和MiniMax2

值得精读,特别是在枚举分类和路由方法检测逻辑上的设计决策,以及如何系统性地更新所有专家内核的支持列表。对 DeepSeek、MiniMax 模型部署和维护有兴趣的工程师应重点关注。

2026-04-27

参与讨论