Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-21

#37318 [Hybrid] calling get_mamba_groups() once at MambaCopyBuffers.create()

原始 PR · 作者 fuscof-ibm · 合并时间 2026-03-21 17:29

性能优化重要性 5.00 洞察度 5.00

优化 Mamba 组获取逻辑，从每批次调用改为创建时一次性计算并重用。

工程师应关注此优化带来的性能收益，但需仔细阅读 review 中的风险提示，考虑在实际部署前评估配置变化的可能性，或未来添加断言以增强鲁棒性。

performancerefactortest

#37424 [Responses API] Add kv_transfer_params for PD disaggregation

原始 PR · 作者 bongwoobak · 合并时间 2026-03-21 13:48

功能重要性 6.00 洞察度 5.00

为Responses API添加kv_transfer_params支持，实现PD disaggregation功能。

建议工程师精读此PR，特别是context.py中guard的设计决策，以理解多回合agentic循环下的状态管理。对于负责Responses API或PD disaggregation的开发者，此PR是重要的功能扩展参考，展示了如何遵循现有模式进行API增强。

frontendkv-connectorresponses-api

#37128 [MoE Refactor] Mxfp4 oracle rebased

原始 PR · 作者 zyongye · 合并时间 2026-03-21 11:37

重构重要性 7.00 洞察度 7.00

重构 MXFP4 MoE 为 oracle 模式，统一后端选择并简化代码库。

建议工程师精读此 PR，特别是 oracle/mxfp4.py 和新的专家类，以理解 oracle 模式的设计决策和 MXFP4 的后端选择逻辑。关注 review 中解决的初始化和硬编码问题，以及如何统一不同后端的支持方法。对于维护者，需注意潜在的回归风险和测试覆盖。

refactorquantizationperformance

#37694 Add get_device_uuid for rocm

原始 PR · 作者 tmm77 · 合并时间 2026-03-21 11:33

功能重要性 4.00 洞察度 3.00

为ROCm平台新增get_device_uuid方法，支持Verl应用的PPO和异步用例。

这是一个小而精的PR，适合关注ROCm支持或平台抽象实现的工程师精读。注意错误处理的设计和边界检查的添加，这些是防御性编程的好例子。

rocmfeature

#37565 [Bugfix] Disable --calculate-kv-scales for hybrid GDN/Mamba+Attention…

原始 PR · 作者 Young-Leo · 合并时间 2026-03-21 02:28

缺陷修复重要性 6.00 洞察度 5.00

修复混合模型使用 --calculate-kv-scales 时导致 FP8 KV 缓存比例损坏的 bug。

建议阅读此 PR，以了解混合模型与量化校准的交互问题，以及如何安全地处理弃用选项。重点关注 `HybridAttentionMambaModelConfig.verify_and_update_config()` 方法的设计决策，包括警告日志和配置修改的逻辑。

bugfixmodelfp8

2026-03-20

#37639 [Model Runner V2] Fix draft logits not populated during cudagraph replay

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-20 15:43

缺陷修复重要性 6.00 洞察度 5.00

修复 Eagle 投机解码在 CUDA 图重放时草稿 logits 未写入的问题，确保概率拒绝采样的正确性。

对于使用 Eagle 投机解码和 CUDA 图的工程师，建议精读此 PR，特别关注状态从 RequestState 移至 Speculator 的设计决策，以及 review 中关于数值精度的讨论。同时，可参考相关 PR 如 38045 以了解拒绝采样功能的更多上下文。

bugfixspeculative-decodingcudagraph

#36976 [Bugfix][LoRA] Fix Qwen35 LoRA

原始 PR · 作者 jeejeelee · 合并时间 2026-03-20 11:09

缺陷修复重要性 5.00 洞察度 6.00

修复Qwen3.5模型的LoRA适配器支持，解决IndexError问题。

该PR值得精读，特别是模型层LoRA兼容性设计决策，如分离in_proj_qkvz层以处理GDN结构，这为其他支持LoRA的模型提供参考。同时关注gemini-code-assist[bot]提出的packed_modules_mapping修复是否已正确实施。

bugfixmodelqwen

#37448 Fix AttributeError in Qwen3.5 GDN layers with quantized models

原始 PR · 作者 jhsmith409 · 合并时间 2026-03-20 07:21

缺陷修复重要性 5.41 洞察度 4.00

修复 Qwen3.5 GDN 层在量化模型下因 MergedColumnParallelLinear 无 weight 属性而抛出的 AttributeError。

建议关注 Qwen 模型维护和量化支持的开发者精读此 PR，以了解 MergedColumnParallelLinear 在量化时的属性访问差异和形状计算调整。变更虽小，但揭示了量化层与标准线性层之间的重要设计权衡。

bugfixqwen

第 249 / 253 页 · 共 2018 条

上一页 1 … 247 248 249 250 251 … 253 下一页