Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-28

修复 streaming tool-call 序列化器丢弃第一个 args chunk 的 bug

值得阅读,展示了一个高质量的 bugfix 设计:通过引入 `split_delta` 函数将复合 delta 原子化,简化了状态机设计,同时通过分组按 index 保持 name 和 args 的关联。测试覆盖完善。可以学习这种将复杂问题分解的思路。

#43808 [BugFix] Fix blocked reasoning parsing with MRV2

原始 PR · 作者 njhill · 合并时间 2026-05-28 12:59

缺陷修复 重要性 6.79 洞察度 6.00

修复MRV2因自动创建reasoning_config而无法启动

值得精读,特别是将配置级验证改为请求级验证的设计决策,以及如何在两个版本间管理向后兼容性。review 讨论虽少但触及核心权衡。

缺陷修复 重要性 5.69 洞察度 4.00

修复 BF16 MoE 缺失 routed_scaling_factor 传递

此 PR 改动虽小但影响极大(正确性 bug),值得作为故障案例学习:在多层参数传递中,每个后端/调用点都需确保所有参数透传。相关开发者应检查其他 MoE 后端是否也存在类似遗漏。

#43243 fix: parse Qwen3 XML JSON arguments first

原始 PR · 作者 he-yufeng · 合并时间 2026-05-28 11:35

缺陷修复 重要性 5.79 洞察度 5.00

修复 Qwen3 XML 参数解析中 JSON 布尔/null 失败

值得精读该 PR 的处理方式:它展示了一种在不破坏向后兼容的前提下修复非标准输入解析问题的实用技巧——优先使用更严格/标准的解析器,再 fallback 到宽松的解析器。对于其他 tool parser 的类似问题(如 DeepSeek 或 Mistral 解析器)可参考此模式。

#43727 [MoE] Remove inplace fused experts mechanism

原始 PR · 作者 zyongye · 合并时间 2026-05-28 11:00

重构 重要性 8.20 洞察度 4.00

移除 MoE fused experts 的 inplace 路径和 disable_inplace 机制

本 PR 是清理遗留技术债务的良好范例,值得对 MoE 层有维护责任的工程师精读。展示了如何在 torch 升级后安全移除已废弃的兼容代码,重点关注:版本守卫的消除、自定义算子重命名时的向下兼容策略(通过保留 outplace 别名)、以及测试覆盖的更新方式。

缺陷修复 重要性 6.08 洞察度 5.00

修复 RunAI streamer 张量缓冲区重用导致的数据损坏

值得快速合并到 v0.22.0 milestone。代码量小、逻辑清晰、测试覆盖良好。可作为「流式迭代器内存安全」的经典案例。

参与讨论