Reorder ROCm pad fusion before AR+RMS fusion
值得合入。该 PR 精准修复了 ROCm AITER 融合管道中的调度竞争问题,通过极小的代码改动(+5/-3)获得显著性能提升,且经过充分验证。适合作为编译 pass 优先级设计的参考案例。
A high-throughput and memory-efficient inference and serving engine for LLMs
Reorder ROCm pad fusion before AR+RMS fusion
值得合入。该 PR 精准修复了 ROCm AITER 融合管道中的调度竞争问题,通过极小的代码改动(+5/-3)获得显著性能提升,且经过充分验证。适合作为编译 pass 优先级设计的参考案例。
为 /inference/v1/generate 添加服务端 max_tokens 默认值,防止静默截断。
此 PR 值得精读,尤其是 pydantic 模型验证器追踪客户端字段的技巧,该模式可用于其他需要区分“未设置”与“显式默认值”的场景(如 `temperature`、`top_p` 等)。其实现与测试设计清晰,有助于理解 vLLM 请求处理管线的不同层。
修复 PyPI 发布脚本使用 uv + Python 3.12
值得精读。该 PR 展示了 CI/CD 脚本中 Python 版本兼容性的处理策略,以及如何利用 uv 工具简化依赖管理并提升确定性。固定版本的做法值得在其它 CI 脚本中推广。
将 bind_gpu_block_pool 提升为 KVConnectorBase_V1 通用 API
本 PR 虽改动量小,但涉及 API 设计权衡(直接暴露完整池 vs. 提供窄接口),值得所有参与连接器开发的工程师精读,以理解当前接口约束和未来演进方向。
修复 CUDA 13 平台 nvidia-cutlass-dsl [cu13] 依赖缺失
值得关注其设计思路:让最新平台的需求作为默认值,通过向后兼容的方式处理旧平台,这是一种更可扩展的依赖管理策略。
修复 SimpleCPUOffloadScheduler eager 模式下跨 steps 重复 offload 的问题
建议合入。这是一个精确的 bugfix,修复了竞态条件导致的重复 offload 问题,代码改动量小,设计清晰,且有完善的测试和 CI 集成。
修复 SlidingWindowSpec NVFP4 KV 缓存页大小计算
建议合并。该 PR 修复了明确的 Bug,改动集中且正确。建议关注后续是否需要对 FP8 量化做类似修复。
原始 PR · 作者 shen-shanshan · 合并时间 2026-05-13 16:00
为 Qwen3.5 启用 ViT 全 CUDA 图
建议合并。该 PR 遵循了已建立的 ViT CUDA 图扩展模式,代码清晰,测试覆盖完善,审阅人批准。值得关注的设计决策:通过复用 Qwen3-VL 的视觉变换器,展示了 vLLM 中多模态模型 CUDA 图支持的模块化扩展方法。
参与讨论