Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-18

#42497 [Perf] Wire silu_and_mul_per_block_quant into TritonFP8MoE (MiniMax-M2)

原始 PR · 作者 qianlihuang · 合并时间 2026-05-18 09:57

性能优化重要性 6.96 洞察度 7.00

将 SiLU+Mul 与 FP8 块量化融合，提升 MiniMax-M2 MoE 性能

值得精读，尤其是条件融合的设计模式。虽然 review 中暴露了 block_shape 类型鲁棒性等细节问题，但整体思路清晰。建议后续开发者注意将 `self.block_shape` 可能为 None 或 tuple 的类型信息明确化，并考虑为 DeepGEMM E8M0 路径添加等效的 fused kernel 或统一量化接口。

performancequantizationkernel

#42686 [torch.compile] Add patch for fullgraph compilation

原始 PR · 作者 ProExpertProg · 合并时间 2026-05-18 03:49

性能优化重要性 7.24 洞察度 6.00

为torch.compile全图模式添加Inductor物化启发式补丁

值得阅读其成本模型的设计思路（简洁有效），但注意该PR已被回滚。建议直接使用PyTorch 2.12（已包含上游官方修复），或等待vllm团队重新评估后修复已知问题并重新合入。

performancetorch.compilecompilation

#42810 [ROCm] [Bugfix] Fix DeepSeek V4 Functionality and Accuracy

原始 PR · 作者 tjtanaa · 合并时间 2026-05-18 00:18

缺陷修复重要性 7.59 洞察度 5.00

修复 ROCm 上 DeepSeek V4 功能与高并发精度问题

值得所有 ROCm + DeepSeek V4 用户关注。设计决策（AITER 回退、topk 统一入口）对类似平台适配有参考价值。建议阅读 `rocm_aiter_mla_sparse.py` 中的重构细节。

bugfixrocmdeepseek

2026-05-17

#42851 Refactor: Pass num_labels explicitly to PoolerClassify instead of reading from global config

原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-17 22:40

重构重要性 6.88 洞察度 5.00

PoolerClassify 去除全局状态依赖

值得精读。该 PR 展示了如何通过消除全局状态依赖来提升模块可测试性和可维护性，是良好的代码净化范例。设计决策清晰，测试验证充分。

refactorpoolingcleanup

#42725 [XPU] fix weight scale shape

原始 PR · 作者 zufangzhu · 合并时间 2026-05-17 16:55

缺陷修复重要性 5.34 洞察度 4.00

修复 XPU FP8 weight_scale 张量形状

建议精读以了解 XPU FP8 后端的参数处理细节。应关注 review 中关于条件不一致的问题，并考虑在后续 PR 中修复：将 weight_scale 的转置放入与 weight 相同的 if 块中，确保两者布局始终同步。

bugfixintel-gpuquantization

#42710 [MRV2][XPU] add Model Runner V2 log

原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-17 12:15

功能重要性 4.24 洞察度 2.00

XPU Worker 新增 V2 Model Runner 日志

值得合并。变更简洁、无风险，为 XPU 后端调试提供便利。可作为 V2 Model Runner 迁移状态的一个轻量级 markers。

intel-gpuv1feature

#41680 Support bf16 for mamba ssm cache

原始 PR · 作者 qizzzh · 合并时间 2026-05-17 08:54

功能重要性 4.18 洞察度 2.00

Mamba SSM 缓存支持 bf16

该 PR 简单明确，建议合并。后续可考虑补充单元测试验证 `bfloat16` 选项在 Mamba 缓存中的实际可用性。

featuremodeltpu

#42716 Fix Weight loading for Qwen3.5-MTP and Qwen3-VL using runai_streamer

原始 PR · 作者 weizhoublue · 合并时间 2026-05-17 08:54

缺陷修复重要性 5.59 洞察度 3.00

修复 Qwen3.5-MTP 与 Qwen3-VL MoE 权重加载中参数丢失

这是一个明确且低风险的 bugfix，值得合并。代码虽少，但体现了对数据契约一致性的重视。建议在类似模型（如其他 MoE 模型）中检查是否有相同的调用模式，统一修复以避免遗留。

bugfixqwenmoe

第 70 / 269 页 · 共 2148 条

上一页 1 … 68 69 70 71 72 … 269 下一页