#44476 [Bugfix][Compile] Guard per_token_group_fp8_quant lookup on non-CUDA platforms
原始 PR · 作者 QiliangCui2023 · 合并时间 2026-06-04 21:31
修复非 CUDA 平台的 per_token_group_fp8_quant 导入崩溃
值得快速合并的 bugfix。展示了在跨后端环境中正确守卫平台相关操作的最佳实践:使用 `hasattr` 而非平台枚举来检查操作存在性。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 QiliangCui2023 · 合并时间 2026-06-04 21:31
修复非 CUDA 平台的 per_token_group_fp8_quant 导入崩溃
值得快速合并的 bugfix。展示了在跨后端环境中正确守卫平台相关操作的最佳实践:使用 `hasattr` 而非平台枚举来检查操作存在性。
为文档构建预检查添加 GH token 提升 API 速率限制
可直接合入,无需额外测试。推荐熟悉文档构建流程的人关注环境变量 `GITHUB_TOKEN` 的配置。
合并 W4A16 与 W4A4 NVFP4 线性层为一个类
修复 Qwen3-VL EVS 设备不匹配错误
这是一个针对特定模型特定功能的紧急修复,改动经过验证且明确。建议快速合并。
原始 PR · 作者 wangxiyuan · 合并时间 2026-06-04 18:45
统一Mamba线性注意力层基类,合并Bailing/MiniMax实现
该PR是vLLM中Mamba Attention模块系统重构的重要步骤,展示了如何利用可插拔层(`PluggableLayer`)和多继承(`MambaBase`)进行统一接口设计。建议关注`LinearAttention`基类的设计模式,以及通过注册机制解耦具体实现的方法。对于后续重构系列的其他PR(如SSM注意力重构)有参考价值。
集成 Flashinfer Gemma RMSNorm AR 融合,优化 Qwen3.5 推理吞吐
值得精读,特别是模式匹配的注册技巧和 `extra_check` 的使用,以及如何通过 `weight_bias` 抽象 Gemma 的特异性。展示了在 vLLM 编译 passes 中扩展新融合模式的标准流程。
原始 PR · 作者 Kevin-XiongC · 合并时间 2026-06-04 16:14
修复 Kimi-K2.5 FlashInfer ViT 元数据处理错误
建议合并,尤其如果团队维护 Kimi-K2.5 多模态支持。值得关注的设计决策是避免 GPU 张量上的 `.tolist()` 调用以及将 `grid_thws` 保持 CPU 固定,这是性能优化通用经验。
DeepSeek V4 滑动窗口 KV cache 选择性保留与回收优化
值得精读,尤其是 `prepend_n` + `free_blocks` 的回收优先级设计以及 `_validate_prefix_cache_retention_interval` 的输入校验模式。建议在 DeepSeek V4 以外的滑动窗口模型(如 Mistral)上验证兼容性,并考虑将 retention 机制推广到 Mamba 组(当前 `TODO`).
参与讨论