修复流式聊天完成时 n>1 下工具调用因共享对象损坏的 bug。
该 PR 值得精读以理解 Python 中 mutable 对象共享的常见陷阱,尤其是在并发或状态管理场景。关注 `chat_completion_stream_generator` 函数中的初始化逻辑,以及测试中模拟流式生成的方法。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复流式聊天完成时 n>1 下工具调用因共享对象损坏的 bug。
该 PR 值得精读以理解 Python 中 mutable 对象共享的常见陷阱,尤其是在并发或状态管理场景。关注 `chat_completion_stream_generator` 函数中的初始化逻辑,以及测试中模拟流式生成的方法。
原始 PR · 作者 NickLucche · 合并时间 2026-03-30 17:41
修复Mamba模型CUDA图形内存不足时静默限制性能问题,改为抛出错误提示用户调整配置。
建议精读此PR以关注从静默限制到明确错误的设计权衡,特别留意`_check_and_update_cudagraph_mode`中`is_profiling`标志的引入和错误检查逻辑,这对理解CUDA图形在混合模型中的优化策略有重要参考价值。
更新 ROCm 安装文档,新增 ROCm 7.2.1 和夜间 wheel 支持。
建议技术管理者快速浏览以了解 ROCm 支持更新,工程师可关注自动化命令的设计和文档一致性权衡,但无需深入代码逻辑。
修复SPLADE池化器测试因接口变更中断,使用真实PoolingMetadata替换模拟对象。
建议测试维护者和相关开发者阅读此PR,以学习如何处理接口变更时的测试适配,并关注使用真实对象代替模拟的最佳实践。同时,注意gemini-code-assist[bot]提出的可变对象共享风险,考虑在未来测试代码中修复以避免潜在问题。
原始 PR · 作者 pinsiangamd · 合并时间 2026-03-30 15:19
修复 ROCm 平台未量化 MoE 模型使用 AITER 后端时 MORI 专家并行失效的静默退化问题。
建议精读此 PR 以理解未量化 MoE 调度机制,特别关注 AITER 后端集成和 MORI 初始化逻辑;设计决策中,scale_type_size 的处理和守卫移除值得学习,以提高代码清晰度和避免过度工程。
原始 PR · 作者 jperezdealgaba · 合并时间 2026-03-30 15:10
修复批处理运行器中的SSRF漏洞,通过添加URL域名验证。
此PR值得精读,特别是安全验证设计和空列表处理部分。建议关注download_bytes_from_url函数中的验证逻辑和测试用例,以理解如何防止SSRF绕过。
修复 Pixtral 模型 LoRA 支持中的 bug,重构视觉编码器权重加载逻辑。
建议使用 Pixtral 模型的工程师精读此 PR,特别关注 hf_to_vllm_mapper 和 load_weights 方法的实现,这些是支持 LoRA 和并行化的关键设计决策。同时,注意 pre_mm_projector_norm 的加载逻辑差异,未来可能需调整以确保一致性。
为 MiniMax-M2.1 模型添加 GGUF 量化支持,包括多分片文件发现和权重映射。
该 PR 值得精读,因为它展示了如何扩展 vLLM 以支持新的模型和量化格式。关注的设计决策包括多分片文件处理、权重映射模式以及量化配置覆盖机制。
参与讨论