Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-21 19:59 同步状态:空闲 下次计划:2026-04-21 20:59

PR 列表

已合并 859 · 已分析 859
更多筛选
2026-03-23
缺陷修复 重要性 5.00 洞察度 3.00

修复ROCm AITER ops中fused_moe_fake签名不匹配和其他错误,避免torch.compile崩溃。

这是一个关键bugfix,值得ROCm用户和涉及量化MoE或AITER ops的开发者快速review。建议关注签名匹配的一致性,并检查是否有其他类似签名不匹配问题在代码库中存在。

缺陷修复 重要性 6.00 洞察度 5.00

修复Qwen3.5模型中Triton autotuning缓存不匹配问题,消除推理时的autotuning延迟。

该PR值得精读,特别是对于关注Triton autotuning优化和dtype对齐的工程师。重点关注_warmup_prefill_kernels函数中的dtype匹配设计决策,以及如何通过测试验证性能改进,以应用于其他模型或内核优化场景。

#37810 [Bugfix] Store Qwen3Next A_log in fp32

原始 PR · 作者 effortprogrammer · 合并时间 2026-03-23 15:36

缺陷修复 重要性 4.00 洞察度 4.00

修复Qwen3Next模型中A_log参数的精度问题,将其存储为fp32以匹配参考实现。

此PR值得快速浏览以了解精度对齐的决策过程和最小变更原则。对于工程师,关注review中关于dt_bias的讨论,可作为未来类似bugfix的参考案例。整体变更简单,无需深入代码细节,但建议跟进可能的dt_bias更新。

缺陷修复 重要性 5.00 洞察度 3.00

修复JAIS模型中ALiBi无条件应用导致的编码冲突。

对于vLLM开发者和模型工程师,此PR值得快速浏览以理解JAIS模型位置编码的配置逻辑,关注条件判断的实现。对于使用JAIS变体的用户,建议检查配置以确保正确性。由于变更简单,无需深入分析。

#37851 update doc for online fp8 quantization

原始 PR · 作者 yma11 · 合并时间 2026-03-23 13:19

文档 重要性 2.00 洞察度 2.00

更新FP8在线量化文档,移除内存警告。

此 PR 不值得深入阅读,除非关注 FP8 量化文档更新。管理者可快速批准此类维护性变更。

#35963 [Feature] ViT Full CUDA Graph

原始 PR · 作者 b-mu · 合并时间 2026-03-23 13:01

功能 重要性 7.00 洞察度 8.00

为ViT编码器添加完整CUDA图支持,减少内核启动开销,提升多模态推理性能。

该PR值得精读,特别是`SupportsEncoderCudaGraph`协议的设计,展示了如何抽象模型特定逻辑以实现通用优化。关注`EncoderCudaGraphManager`中的贪婪装箱算法(减少图数量)和数据并行支持(负载均衡),这些设计决策对性能优化有重要借鉴意义。

#37816 [CI/Build][LoRA] Update Qwen35 LoRA testing

原始 PR · 作者 jeejeelee · 合并时间 2026-03-23 12:55

测试 重要性 4.00 洞察度 2.00

更新 Qwen3.5 LoRA 测试,修复文件名 typo 并扩展视觉语言测试覆盖。

该 PR 值得精读,尤其关注测试设计决策,如多模态测试的集成方式和夹具重构。建议工程师在合并后验证 fully_sharded_loras 测试覆盖情况,以确保 LoRA 功能完整性。

参与讨论