修复 CUDA 13 平台 nvidia-cutlass-dsl [cu13] 依赖缺失
值得关注其设计思路:让最新平台的需求作为默认值,通过向后兼容的方式处理旧平台,这是一种更可扩展的依赖管理策略。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 CUDA 13 平台 nvidia-cutlass-dsl [cu13] 依赖缺失
值得关注其设计思路:让最新平台的需求作为默认值,通过向后兼容的方式处理旧平台,这是一种更可扩展的依赖管理策略。
修复 SimpleCPUOffloadScheduler eager 模式下跨 steps 重复 offload 的问题
建议合入。这是一个精确的 bugfix,修复了竞态条件导致的重复 offload 问题,代码改动量小,设计清晰,且有完善的测试和 CI 集成。
修复 SlidingWindowSpec NVFP4 KV 缓存页大小计算
建议合并。该 PR 修复了明确的 Bug,改动集中且正确。建议关注后续是否需要对 FP8 量化做类似修复。
原始 PR · 作者 shen-shanshan · 合并时间 2026-05-13 16:00
为 Qwen3.5 启用 ViT 全 CUDA 图
建议合并。该 PR 遵循了已建立的 ViT CUDA 图扩展模式,代码清晰,测试覆盖完善,审阅人批准。值得关注的设计决策:通过复用 Qwen3-VL 的视觉变换器,展示了 vLLM 中多模态模型 CUDA 图支持的模块化扩展方法。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-13 15:24
迁移CUDA内核到libtorch稳定ABI
建议仔细审查两个未解决的 review 评论(deque once_flag 和 hadacore inplace 逻辑),确认其在提交前已修复或确认不存在问题。该 PR 展示了大规模内核迁移到稳定 ABI 的工程模式(头文件搬迁、API 替换、注册方式变化),值得精读以指导后续迁移。
原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-13 14:08
重构池化响应构建,消除编码逻辑重复
值得精读,特别是 `utils.py` 中函数提取的设计模式和 `_get_prompt_token_ids` 的 DRY 实践。该 PR 是典型的“提取+集中”重构,展示了如何消除跨模块重复逻辑。建议在类似场景中参考其抽象粒度。同时,可关注 review 中关于 None 安全的设计讨论。
原始 PR · 作者 NickLucche · 合并时间 2026-05-13 13:20
修复多节点 TP 下 engine_id 不同步导致的 NIXL 握手失败
值得精读,特别是分布式同步设计取舍:选择 TP group 而非 world group,以及将同步逻辑抽象到 `ensure_kv_transfer_initialized` 中,体现了模块间解耦的思路。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-05-13 11:34
同步 FlashAttention 上游依赖
作为常规依赖同步,建议合并以保持与上游一致。开发者在后续提交中可关注 flash-attention 的更新日志以评估是否需要适配代码变更。
参与讨论