Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 00:21 同步状态:空闲 下次计划:2026-05-31 01:21

PR 列表

更多筛选
2026-04-29
缺陷修复 重要性 6.33 洞察度 4.00

修复 DSV4 MTP 层 aux stream 接口不兼容

值得快速合并,属于必要修复。可以学习 reviewer 发现的流共享问题,提醒团队在跨层共享资源时注意作用域。

缺陷修复 重要性 7.93 洞察度 6.00

修复 KV 缓存块数覆盖未影响 max_model_len 检查的 bug

此 PR 值得精读,特别关注 `_pool_bytes_per_block` 如何桥接不同层组规格,以及 `get_kv_cache_configs` 中覆写内存的计算方式。它属于核心调度路径的稳健性修复,设计决策(以块为单位而非字节)有明确的讨论背景。若正在维护或扩展 KV 缓存相关逻辑,理解此改动有助于避免同类问题。

文档 重要性 3.12 洞察度 3.00

补全安全文档缺失的 API 端点列表

建议合并,无代码风险。该 PR 是安全文档的及时补充,值得管理员和部署者阅读以了解最新 endpoint 列表和认证要求。

#41024 [FEATURE] Add EagleMistralForCausalLM

原始 PR · 作者 juliendenize · 合并时间 2026-04-29 03:22

功能 重要性 8.02 洞察度 6.00

新增Mistral Eagle推测解码模型支持

值得精读:展示了如何在 vLLM 中为推测解码框架添加新 draft 模型的标准流程,包括绕过基类 __init__ 的注意事项、weight mapping 调整、量化配置隔离等。对于需要添加自定义 Eagle 模型的开发者是很好的参考。

修复 MLA 场景下 skip P-rank KV 块释放的请求 ID 错误

值得精读。该 PR 用一行代码展示了分布式系统中请求 ID 传递不一致的典型 bug,并附有高质量的单元测试,是理解 MLA PD-disaggregated 流程和 Nixl 连接器的好材料。

#41129 [New Model] Laguna XS.2 implementation

原始 PR · 作者 joerowell · 合并时间 2026-04-29 02:23

功能 重要性 9.18 洞察度 6.00

新增 Laguna XS.2 模型支持,包括 MoE、推理解析和工具调用

推荐精读 `laguna.py` 中 MoE 层和混合注意力层的实现,以及 `poolside_v1_tool_parser.py` 中的增量流式工具调用逻辑。`poolside_v1_reasoning_parser.py` 展示了如何基于现有解析器定制行为,具有参考价值。PR 合并前应解决 review 中的全局配置和默认值问题。

参与讨论