Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 14:32 同步状态:空闲 下次计划:2026-04-19 15:32

PR 列表

已合并 796 · 已分析 796
更多筛选
2026-03-30
缺陷修复 重要性 5.00 洞察度 4.00

修复多模态图像输入错误分类,从HTTP 500改为400,提升API语义正确性。

该PR是bugfix,变更较小但重要,值得阅读以学习错误处理策略和测试设计。关注点:异常捕获的边界情况、测试用例的全面性,以及如何通过重构简化代码。

缺陷修复 重要性 6.00 洞察度 5.00

修复流式聊天完成时 n>1 下工具调用因共享对象损坏的 bug。

该 PR 值得精读以理解 Python 中 mutable 对象共享的常见陷阱,尤其是在并发或状态管理场景。关注 `chat_completion_stream_generator` 函数中的初始化逻辑,以及测试中模拟流式生成的方法。

缺陷修复 重要性 6.00 洞察度 6.00

修复Mamba模型CUDA图形内存不足时静默限制性能问题,改为抛出错误提示用户调整配置。

建议精读此PR以关注从静默限制到明确错误的设计权衡,特别留意`_check_and_update_cudagraph_mode`中`is_profiling`标志的引入和错误检查逻辑,这对理解CUDA图形在混合模型中的优化策略有重要参考价值。

#38495 [CI] Fix SPLADE pooler test broken by #38139

作者 haosdent · 合并时间 2026-03-30 15:48

缺陷修复 重要性 4.00 洞察度 4.00

修复SPLADE池化器测试因接口变更中断,使用真实PoolingMetadata替换模拟对象。

建议测试维护者和相关开发者阅读此PR,以学习如何处理接口变更时的测试适配,并关注使用真实对象代替模拟的最佳实践。同时,注意gemini-code-assist[bot]提出的可变对象共享风险,考虑在未来测试代码中修复以避免潜在问题。

缺陷修复 重要性 6.00 洞察度 5.00

修复 ROCm 平台未量化 MoE 模型使用 AITER 后端时 MORI 专家并行失效的静默退化问题。

建议精读此 PR 以理解未量化 MoE 调度机制,特别关注 AITER 后端集成和 MORI 初始化逻辑;设计决策中,scale_type_size 的处理和守卫移除值得学习,以提高代码清晰度和避免过度工程。

缺陷修复 重要性 5.00 洞察度 5.00

修复 Pixtral 模型 LoRA 支持中的 bug,重构视觉编码器权重加载逻辑。

建议使用 Pixtral 模型的工程师精读此 PR,特别关注 hf_to_vllm_mapper 和 load_weights 方法的实现,这些是支持 LoRA 和并行化的关键设计决策。同时,注意 pre_mm_projector_norm 的加载逻辑差异,未来可能需调整以确保一致性。

参与讨论