Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 08:12 同步状态:空闲 下次计划:2026-04-19 09:12

PR 列表

已合并 794 · 已分析 794
更多筛选
2026-03-27
缺陷修复 重要性 6.00 洞察度 5.00

修复 FP8 FlashMLA 解码中的 CUDA 图持久缓冲区缺失 bug,避免输出乱码。

此 PR 值得精读,因为它揭示了 CUDA 图与张量地址管理的微妙交互,以及如何在重构后保持缓冲区一致性。关注条件检查、断言保留的原因和与 PR #32810 的关联,有助于理解 vLLM 中注意力后端的演进。

2026-03-26
缺陷修复 重要性 4.00 洞察度 2.00

修复 Mamba 后端选择器中的潜在 NameError 错误和几个拼写问题。

该 PR 变更简单,不值得精读,但可作为错误处理最佳实践的参考,特别是避免未绑定变量在异常处理中的使用。工程师可快速浏览以了解修复细节。

缺陷修复 重要性 4.00 洞察度 3.00

移除PaddleOCRVL模型中未使用的packing_position_embedding,提升检查点兼容性。

此PR值得阅读,以了解如何清理未使用代码和改善检查点兼容性。关注forward方法中条件移除的决策,未来需验证'image_grid_thw'是否为None的假设。

缺陷修复 重要性 6.00 洞察度 4.00

回滚Flashinfer nvfp4 cutedsl MoE kernel集成以修复B200 GPU上的CI失败。

对于关注MoE kernel实现、量化优化或CI稳定的工程师,值得浏览此PR以理解回滚原因和原代码问题。重点关注`flashinfer_cutedsl_moe.py`中的输出张量处理,这是kernel设计中的常见陷阱。建议在重新集成时参考review中的修复建议,并加强测试覆盖以预防类似失败。

#37962 [bug-fix] GLM OCR Patch Merger context_dim

作者 JaredforReal · 合并时间 2026-03-26 20:11

缺陷修复 重要性 5.00 洞察度 5.00

修复GLM-OCR模型Patch Merger的context_dim计算错误,改用文本配置的中间大小。

建议工程师精读此PR,以了解多模态模型中视觉与文本配置协调的设计决策,并关注未解决的导入依赖问题,有助于理解模型配置演进。

#38207 [CI] Reorganize scoring tests

作者 noooop · 合并时间 2026-03-26 20:07

测试 重要性 5.00 洞察度 4.00

重组评分测试,优化测试结构并新增覆盖,修复任务误用问题。

建议技术管理者和工程师关注测试重组的设计决策,如按模型类型(bi-encoder、cross-encoder、late interaction)分类测试,以及review中指出的测试正确性问题。此PR值得精读,以了解如何结构化大型测试套件、避免常见测试陷阱(如任务误用、死代码),并参考错误消息的调整实践。

参与讨论