修复 has_flashinfer mock 路径,使 ROCm 测试通过
无特殊关注必要。此 PR 是典型的后续维护修复,可快速合并。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 has_flashinfer mock 路径,使 ROCm 测试通过
无特殊关注必要。此 PR 是典型的后续维护修复,可快速合并。
修复 DSV4 MTP 层 aux stream 接口不兼容
值得快速合并,属于必要修复。可以学习 reviewer 发现的流共享问题,提醒团队在跨层共享资源时注意作用域。
修复 AITER gemm_a4w4 API 变更导致的 MXFP4 GEMM bug
值得集成,变更集中且验证充分;对于维护 ROCm 推理管线的工程师,建议关注 AITER 的 API 变化及时跟进类似调整。
修复 KV 缓存块数覆盖未影响 max_model_len 检查的 bug
此 PR 值得精读,特别关注 `_pool_bytes_per_block` 如何桥接不同层组规格,以及 `get_kv_cache_configs` 中覆写内存的计算方式。它属于核心调度路径的稳健性修复,设计决策(以块为单位而非字节)有明确的讨论背景。若正在维护或扩展 KV 缓存相关逻辑,理解此改动有助于避免同类问题。
补全安全文档缺失的 API 端点列表
建议合并,无代码风险。该 PR 是安全文档的及时补充,值得管理员和部署者阅读以了解最新 endpoint 列表和认证要求。
原始 PR · 作者 juliendenize · 合并时间 2026-04-29 03:22
新增Mistral Eagle推测解码模型支持
值得精读:展示了如何在 vLLM 中为推测解码框架添加新 draft 模型的标准流程,包括绕过基类 __init__ 的注意事项、weight mapping 调整、量化配置隔离等。对于需要添加自定义 Eagle 模型的开发者是很好的参考。
修复 MLA 场景下 skip P-rank KV 块释放的请求 ID 错误
值得精读。该 PR 用一行代码展示了分布式系统中请求 ID 传递不一致的典型 bug,并附有高质量的单元测试,是理解 MLA PD-disaggregated 流程和 Nixl 连接器的好材料。
新增 Laguna XS.2 模型支持,包括 MoE、推理解析和工具调用
推荐精读 `laguna.py` 中 MoE 层和混合注意力层的实现,以及 `poolside_v1_tool_parser.py` 中的增量流式工具调用逻辑。`poolside_v1_reasoning_parser.py` 展示了如何基于现有解析器定制行为,具有参考价值。PR 合并前应解决 review 中的全局配置和默认值问题。
参与讨论