Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 18:46 同步状态：空闲下次计划：2026-04-21 19:46

PR 列表

已合并 857 · 已分析 857

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#39387 [ROCm] Disable fused_silu_mul_block_quant on ROCm

原始 PR · 作者 micah-wil · 合并时间 2026-04-10 01:59

缺陷修复重要性 5.00 洞察度 6.00

临时禁用ROCm平台的特定量化融合，避免模型启动失败。

此PR变更简单但涉及平台兼容性设计，值得ROCm用户或关注量化编译的开发者精读，重点关注如何通过平台检查实现优雅降级，以及review中讨论的一致性考量。

rocmbugfixquantization

#36320 [Quantization] Support Quark W8A8 INT8 MoE inference

原始 PR · 作者 JoursBleu · 合并时间 2026-04-10 01:24

功能重要性 6.00 洞察度 7.00

新增对AMD Quark W8A8 INT8 MoE量化模型的支持，修复加载失败问题。

建议工程师精读此PR，重点关注`_is_dynamic_per_token_w8a8`的检测逻辑和`QuarkW8A8Int8MoEMethod`的实现，学习如何扩展量化方案以支持复杂模型配置。同时，注意review中关于CUDA图兼容性的讨论，这对性能优化和内核设计有借鉴价值。

quantizationfeaturerocm

#39353 [Model Runner V2] Fix flex attention kv blocks calculation issue

原始 PR · 作者 yewentao256 · 合并时间 2026-04-10 01:07

缺陷修复重要性 5.00 洞察度 4.00

修复Flex Attention后端KV块计算错误，避免V2模型运行器初始化崩溃。

该PR值得精读，特别是关注Flex Attention后端中KV块计算的设计决策。建议关注：1）max_num_query_groups和max_num_kv_indices的计算逻辑如何确保张量形状匹配；2）persistent_kv_indices张量形状调整背后的设计考量；3）如何平衡单个请求最大长度与批处理token数在内存分配中的关系。

v1bugfixattention

#39421 [ROCm][CI] Resolved nvidia package deps issue

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-10 00:06

基础设施重要性 4.00 洞察度 3.00

修复ROCm CI/Docker构建因NVIDIA包命名变更导致的依赖问题。

该PR主要涉及CI/基础设施调整，对于关注ROCm构建或依赖管理的工程师值得浏览，特别是.pre-commit-config.yaml和Dockerfile.rocm的变更。建议关注：1. 排除列表的扩展模式如何应对NVIDIA包命名变化。2. Dockerfile.rocm中验证步骤的移除是否在后续PR中补回（从review看未解决）。对于一般开发者，无需精读。

rocmcinvidia

2026-04-09

#38933 [Performance Improvement] Update `batched_count_greater_than` to handle batch size 1 without recompile

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-09 23:51

性能优化重要性 5.00 洞察度 6.00

优化采样器在批大小变化时的重新编译行为，提升推理性能。

建议工程师精读此 PR，特别是 mark_unbacked 的使用和动态形状处理策略，对于优化 PyTorch 编译性能有参考价值。关注讨论中的未决建议，如未来集成 min/max 参数，并考虑在其他编译函数中应用类似技巧。

performancev1compilation

#39411 [CI/Build] Fix memory cleanup in MM test

原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-09 23:50

测试重要性 3.00 洞察度 4.00

修复多模态内存泄漏测试中的进程清理问题，避免CI失败。

该PR值得快速浏览以了解CI修复策略，但无需深入代码细节。重点关注review中提到的进程清理缺陷，建议团队后续评估是否修复@create_new_process_for_each_test的实现。

citestmulti-modality

#39409 [UX] Improve error message for MM input too long

原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-09 21:20

缺陷修复重要性 3.00 洞察度 2.00

改进多模态输入过长错误信息，避免长度与音视频时长混淆。

该PR变更简单，无需精读，但可作为错误信息设计的最佳实践参考：使用明确术语（如“embedding tokens”）避免歧义。对于关注多模态输入处理或错误处理设计的工程师，可快速浏览以了解如何优化用户反馈。

v1bugfixmulti-modality

#39404 [BugFix] fix tests/kernels/moe/test_moe_layer.py

原始 PR · 作者 zou3519 · 合并时间 2026-04-09 20:49

缺陷修复重要性 3.00 洞察度 2.00

修复MoE层测试因PyTorch 2.11不透明类型变更导致的层名处理错误。

该PR变更简单直接，主要用于修复测试逻辑，无需深入精读。值得关注的点是HAS_OPAQUE_TYPE变量的使用，它反映了vLLM对PyTorch不透明类型支持的适配策略。建议开发者了解此变量在代码库中的其他使用场景，以理解整体兼容性设计。

bugfixv1test

第 40 / 108 页 · 共 857 条

上一页 1 … 38 39 40 41 42 … 108 下一页

支持 Prhub ♥