Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 16:00 同步状态：空闲下次计划：2026-06-14 17:00

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#38158 [Bugfix] Fix shared-object aliasing in n>1 streaming with tool calls

原始 PR · 作者 yzong-rh · 合并时间 2026-03-30 18:12

缺陷修复重要性 6.00 洞察度 5.00

修复流式聊天完成时 n>1 下工具调用因共享对象损坏的 bug。

该 PR 值得精读以理解 Python 中 mutable 对象共享的常见陷阱，尤其是在并发或状态管理场景。关注 `chat_completion_stream_generator` 函数中的初始化逻辑，以及测试中模拟流式生成的方法。

bugfixfrontendtool-calling

#38270 [Mamba][Bugfix] Raise on insufficient cache blocks instead of silently capping cudagraph sizes

原始 PR · 作者 NickLucche · 合并时间 2026-03-30 17:41

缺陷修复重要性 6.00 洞察度 6.00

修复Mamba模型CUDA图形内存不足时静默限制性能问题，改为抛出错误提示用户调整配置。

建议精读此PR以关注从静默限制到明确错误的设计权衡，特别留意`_check_and_update_cudagraph_mode`中`is_profiling`标志的引入和错误检查逻辑，这对理解CUDA图形在混合模型中的优化策略有重要参考价值。

bugfixcudagraphtest

#38457 [ROCm] [DOC] Update the Documentation to include ROCm Nightly Wheel support

原始 PR · 作者 tjtanaa · 合并时间 2026-03-30 17:25

文档重要性 3.00 洞察度 4.00

更新 ROCm 安装文档，新增 ROCm 7.2.1 和夜间 wheel 支持。

建议技术管理者快速浏览以了解 ROCm 支持更新，工程师可关注自动化命令的设计和文档一致性权衡，但无需深入代码逻辑。

documentationrocm

#38495 [CI] Fix SPLADE pooler test broken by #38139

原始 PR · 作者 haosdent · 合并时间 2026-03-30 15:48

缺陷修复重要性 4.00 洞察度 4.00

修复SPLADE池化器测试因接口变更中断，使用真实PoolingMetadata替换模拟对象。

建议测试维护者和相关开发者阅读此PR，以学习如何处理接口变更时的测试适配，并关注使用真实对象代替模拟的最佳实践。同时，注意gemini-code-assist[bot]提出的可变对象共享风险，考虑在未来测试代码中修复以避免潜在问题。

bugfixtestci

#37529 [ROCm] Enable MORI EP for unquantized MoE with AITER backend

原始 PR · 作者 pinsiangamd · 合并时间 2026-03-30 15:19

缺陷修复重要性 6.00 洞察度 5.00

修复 ROCm 平台未量化 MoE 模型使用 AITER 后端时 MORI 专家并行失效的静默退化问题。

建议精读此 PR 以理解未量化 MoE 调度机制，特别关注 AITER 后端集成和 MORI 初始化逻辑；设计决策中，scale_type_size 的处理和守卫移除值得学习，以提高代码清晰度和避免过度工程。

bugfixrocmperformance

#38482 (security) Fix SSRF in batch runner download_bytes_from_url

原始 PR · 作者 jperezdealgaba · 合并时间 2026-03-30 15:10

缺陷修复重要性 7.00 洞察度 5.00

修复批处理运行器中的SSRF漏洞，通过添加URL域名验证。

此PR值得精读，特别是安全验证设计和空列表处理部分。建议关注download_bytes_from_url函数中的验证逻辑和测试用例，以理解如何防止SSRF绕过。

securitybugfixfrontend

#36963 [Bugfix][Model] Fix PixtralForConditionalGeneration LoRA

原始 PR · 作者 jeejeelee · 合并时间 2026-03-30 14:59

缺陷修复重要性 5.00 洞察度 5.00

修复 Pixtral 模型 LoRA 支持中的 bug，重构视觉编码器权重加载逻辑。

建议使用 Pixtral 模型的工程师精读此 PR，特别关注 hf_to_vllm_mapper 和 load_weights 方法的实现，这些是支持 LoRA 和并行化的关键设计决策。同时，注意 pre_mm_projector_norm 的加载逻辑差异，未来可能需调整以确保一致性。

bugfixmodelmulti-modality

#36965 [Model][Quantization] Add GGUF support for MiniMax-M2.1

原始 PR · 作者 JoursBleu · 合并时间 2026-03-30 14:24

功能重要性 6.00 洞察度 6.00

为 MiniMax-M2.1 模型添加 GGUF 量化支持，包括多分片文件发现和权重映射。

该 PR 值得精读，因为它展示了如何扩展 vLLM 以支持新的模型和量化格式。关注的设计决策包括多分片文件处理、权重映射模式以及量化配置覆盖机制。

featurequantizationmodel

第 283 / 314 页 · 共 2507 条

上一页 1 … 281 282 283 284 285 … 314 下一页