Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 00:21 同步状态：空闲下次计划：2026-05-31 01:21

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#41072 [CI][AMD][BugFix] Patch has_flashinfer decorator for test_select_rocm_aiter_backend

原始 PR · 作者 rasmith · 合并时间 2026-04-29 10:12

缺陷修复重要性 3.27 洞察度 2.00

修复 has_flashinfer mock 路径，使 ROCm 测试通过

无特殊关注必要。此 PR 是典型的后续维护修复，可快速合并。

bugfixrocmtest

#41171 [DSV4] Align aux stream API with DeepseekV4DecoderLayer

原始 PR · 作者 zixi-qi · 合并时间 2026-04-29 08:22

缺陷修复重要性 6.33 洞察度 4.00

修复 DSV4 MTP 层 aux stream 接口不兼容

值得快速合并，属于必要修复。可以学习 reviewer 发现的流共享问题，提醒团队在跨层共享资源时注意作用域。

bugfixdeepseekrefactor

#40754 [Bugfix][ROCm] Fix gemm_a4w4 call to use updated AITER API signature

原始 PR · 作者 chelnnexy · 合并时间 2026-04-29 08:04

缺陷修复重要性 5.82 洞察度 3.00

修复 AITER gemm_a4w4 API 变更导致的 MXFP4 GEMM bug

值得集成，变更集中且验证充分；对于维护 ROCm 推理管线的工程师，建议关注 AITER 的 API 变化及时跟进类似调整。

bugfixrocmquantization

#41069 [Core] Account for `num_gpu_blocks_override` in `max_model_len` checks

原始 PR · 作者 njhill · 合并时间 2026-04-29 06:44

缺陷修复重要性 7.93 洞察度 6.00

修复 KV 缓存块数覆盖未影响 max_model_len 检查的 bug

此 PR 值得精读，特别关注 `_pool_bytes_per_block` 如何桥接不同层组规格，以及 `get_kv_cache_configs` 中覆写内存的计算方式。它属于核心调度路径的稳健性修复，设计决策（以块为单位而非字节）有明确的讨论背景。若正在维护或扩展 KV 缓存相关逻辑，理解此改动有助于避免同类问题。

bugfixschedulerrefactor

#40532 [Doc] Add missing API endpoints to security documentation

原始 PR · 作者 russellb · 合并时间 2026-04-29 05:53

文档重要性 3.12 洞察度 3.00

补全安全文档缺失的 API 端点列表

建议合并，无代码风险。该 PR 是安全文档的及时补充，值得管理员和部署者阅读以了解最新 endpoint 列表和认证要求。

documentationsecuritycleanup

#41024 [FEATURE] Add EagleMistralForCausalLM

原始 PR · 作者 juliendenize · 合并时间 2026-04-29 03:22

功能重要性 8.02 洞察度 6.00

新增Mistral Eagle推测解码模型支持

值得精读：展示了如何在 vLLM 中为推测解码框架添加新 draft 模型的标准流程，包括绕过基类 __init__ 的注意事项、weight mapping 调整、量化配置隔离等。对于需要添加自定义 Eagle 模型的开发者是很好的参考。

featurespeculative-decodingmodel

#40449 [Bugfix] release KV blocks for skipped P-ranks to prevent invalid KV errors and timeouts when P_tp > D_tp and MLA

原始 PR · 作者 yangrz7 · 合并时间 2026-04-29 02:38

缺陷修复重要性 6.12 洞察度 5.00

修复 MLA 场景下 skip P-rank KV 块释放的请求 ID 错误

值得精读。该 PR 用一行代码展示了分布式系统中请求 ID 传递不一致的典型 bug，并附有高质量的单元测试，是理解 MLA PD-disaggregated 流程和 Nixl 连接器的好材料。

bugfixkv-connectorattention

#41129 [New Model] Laguna XS.2 implementation

原始 PR · 作者 joerowell · 合并时间 2026-04-29 02:23

功能重要性 9.18 洞察度 6.00

新增 Laguna XS.2 模型支持，包括 MoE、推理解析和工具调用

推荐精读 `laguna.py` 中 MoE 层和混合注意力层的实现，以及 `poolside_v1_tool_parser.py` 中的增量流式工具调用逻辑。`poolside_v1_reasoning_parser.py` 展示了如何基于现有解析器定制行为，具有参考价值。PR 合并前应解决 review 中的全局配置和默认值问题。

featuremodeltool-calling

第 122 / 253 页 · 共 2017 条

上一页 1 … 120 121 122 123 124 … 253 下一页