#44035 [BugFix] Fix `_has_module` to verify native deps via trial import
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-06-01 13:06
修复 _has_module 通过 trial import 验证本机依赖
值得精读,因为它修复了一个隐蔽的 bug,并展示了一种稳健的模块可用性检测模式(trial import),设计决策(异常处理范围、日志记录)也有参考价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-06-01 13:06
修复 _has_module 通过 trial import 验证本机依赖
值得精读,因为它修复了一个隐蔽的 bug,并展示了一种稳健的模块可用性检测模式(trial import),设计决策(异常处理范围、日志记录)也有参考价值。
原始 PR · 作者 LucasWilkinson · 合并时间 2026-06-01 13:00
移除 Eagle 专用 CUDA 图池,节省显存
值得快速合并,属于干净的清理变更。可留意未来是否有 Eagle 内存冲突报告。
原始 PR · 作者 umut-polat · 合并时间 2026-06-01 12:04
统一使用 VLLMValidationError 并修复 structured_outputs 校验逻辑
此 PR 变更清晰,修复了一个实际 bug,并提升了 API 错误诊断能力。值得精读的点包括:如何通过统一的异常类型和 parameter 字段提高错误信息的可操作性,以及如何通过细粒度的 parameter 值提供更精确的错误定位。建议在类似验证场景中推广此模式。
原始 PR · 作者 nightcityblade · 合并时间 2026-06-01 03:28
修复 MLA attention docstring 示例错误
该 PR 属于纯文档修正,变更简单明确,无需深度阅读。但可视为文档质量改进的典范:通过 issue 驱动,精准修复,测试验证。
启用 Step3p7ForConditionalGeneration 在线测试
此 PR 代码量小,逻辑清晰,可直接合并。建议关注如果未来模型配置变更,需同步更新 `hf_overrides`。
AMD Zen CPU 上 zentorch 加速 W8A8/W4A16 线性层
值得精读,尤其是 kernel 选择器 fallback 设计、平台检测函数抽象以及量化权重兼容性检查。建议在后续 PR 中考虑引入 `PlatformEnum.ZEN` 并增加端到端集成测试。
原始 PR · 作者 WoosukKwon · 合并时间 2026-05-31 00:40
MRV2 支持可中断 CUDA 图
本 PR 是 MRV2 CUDA graph 功能的重要扩展,值得关注其设计:通过 `run_pw_graph` 统一两种分段 CUDA graph 实现,降低调用方复杂度。建议 review 者重点关注 `cudagraph_mode.has_piecewise_cudagraphs()` 的语义是否正确覆盖了启用条件。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 22:34
修复 Gemma4 MTP TP>1 时 CUDA 非法内存访问
值得精读。该 PR 展示了 CUDA graph replay 场景下的经典问题:中间张量生命周期短于 graph 重放周期,导致非法内存访问。采用缓存 tensor 并确保 contiguous 的修复模式可作为团队内部处理类似问题的参考。
参与讨论