Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-14 00:53 同步状态:空闲 下次计划:2026-06-14 01:53

PR 列表

更多筛选
2026-06-01

#44159 [Docs] Replace broken video url in examples

原始 PR · 作者 Isotr0py · 合并时间 2026-06-01 14:01

其他 重要性 3.23 洞察度 1.00

修复文档和示例中的失效视频链接

该 PR 价值较低但属于必要的维护工作。建议在日常文档维护中关注 URL 有效性,或引入自动化链接检查。

缺陷修复 重要性 6.96 洞察度 5.00

统一使用 VLLMValidationError 并修复 structured_outputs 校验逻辑

此 PR 变更清晰,修复了一个实际 bug,并提升了 API 错误诊断能力。值得精读的点包括:如何通过统一的异常类型和 parameter 字段提高错误信息的可操作性,以及如何通过细粒度的 parameter 值提供更精确的错误定位。建议在类似验证场景中推广此模式。

文档 重要性 5.44 洞察度 3.00

修复 MLA attention docstring 示例错误

该 PR 属于纯文档修正,变更简单明确,无需深度阅读。但可视为文档质量改进的典范:通过 issue 驱动,精准修复,测试验证。

2026-05-31

#44050 [MRV2] Support breakable CUDA graph

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-31 00:40

功能 重要性 7.08 洞察度 5.00

MRV2 支持可中断 CUDA 图

本 PR 是 MRV2 CUDA graph 功能的重要扩展,值得关注其设计:通过 `run_pw_graph` 统一两种分段 CUDA graph 实现,降低调用方复杂度。建议 review 者重点关注 `cudagraph_mode.has_piecewise_cudagraphs()` 的语义是否正确覆盖了启用条件。

参与讨论