修复异构 MoE 层 FlashInfer 工作空间溢出
建议合并,这是一个关键 bugfix,解决真实模型部署中的崩溃问题。审查者已批准,测试可靠。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复异构 MoE 层 FlashInfer 工作空间溢出
建议合并,这是一个关键 bugfix,解决真实模型部署中的崩溃问题。审查者已批准,测试可靠。
原始 PR · 作者 Dao007forever · 合并时间 2026-05-20 02:14
修复 MooncakeStoreConnector 角色配置示例错误
值得快速合并;文档修复提高了配置正确性,特别是对于使用 MooncakeStoreConnector 进行分散式推理的用户。
修复 Triton 注意力 FP8 查询缩放错误
值得精读,特别是 Triton 内核中通过 constexpr 实现编译时降级的设计模式。对于需要扩展量化支持的开发者有参考价值。
原始 PR · 作者 jinzhen-lin · 合并时间 2026-05-19 23:36
将 humming-kernels 加入 CUDA 依赖
建议阅读本 PR,特别是 humming.py 中导入策略的改动。该 PR 展示了如何逐步将外部内核库整合为正式依赖,同时维持跨平台兼容性。推荐的改进方向包括:1)为 `HummingConfig` 添加跨平台守卫;2)恢复或重写 `assert_humming_available` 以提供清晰错误信息;3)增加对非 CUDA 平台的测试覆盖。
提取共享类型提取工具函数
值得阅读,展示了重构提取共享工具的实践经验。关注点:1) 类方法转无状态函数;2) 函数签名设计;3) 排序确定性权衡。
新增 OpenVLA 模型支持
值得精读 `openvla.py` 和 `processors/openvla.py`,理解如何处理无法直接复用 HF remote code 的模型移植。关注 `PrismaticVisionBackbone` 中 timm 模型的加载方式以及 weight loading 的适配。通过此 PR 可学习 vLLM 多模态模型的接入模式(ProcessingInfo、PromptInsertion、TensorSchema 等)。
原始 PR · 作者 xinyu-intel · 合并时间 2026-05-19 23:09
XPU graph 启用与全面捕获支持
值得精读,特别是关注 XPU 平台如何逐步融入现有的 graph capture 框架。建议后续 PR 优先处理 `graph_capture` 方法的平台抽象化,并补充测试用例覆盖多 DP 场景。
消除多处 GPU<->CPU 同步,优化多模态与推理性能
该 PR 值得所有关心推理性能的工程师精读,尤其是 `cast_overflow_tensors` 的优化决策和 `async_tensor_h2d` 的封装思路。注意 `gpu_model_runner.py` 中 `_pp_receive_prev_sampled_token_ids_to_input_batch` 的增量逻辑,后续可能与其他 PR 冲突。建议在 CI 中增加针对 PP 模式下 spec token 计数的回归测试。
参与讨论