#40648 [Model Runner v2] Fix block table IMA issue
原始 PR · 作者 yewentao256 · 合并时间 2026-04-29 23:30
修复 v2 模型运行器中块表在 CuMem 唤醒后的非法内存访问
建议精读该 PR,特别是 init_block_table_layout_tensors 的设计和 post_kv_cache_wake_up 的抽象。关注 CUDA Graph 兼容性风险,并评估在唤醒后是否需要重新捕获图。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yewentao256 · 合并时间 2026-04-29 23:30
修复 v2 模型运行器中块表在 CuMem 唤醒后的非法内存访问
建议精读该 PR,特别是 init_block_table_layout_tensors 的设计和 post_kv_cache_wake_up 的抽象。关注 CUDA Graph 兼容性风险,并评估在唤醒后是否需要重新捕获图。
原始 PR · 作者 yewentao256 · 合并时间 2026-04-29 23:11
AllPool.forward 提速51%
该 PR 值得精读,其优化思路(减少 GPU-CPU 同步)具有普适性,可作为类似场景的参考。建议关注 `num_scheduled_tokens_cpu` 的新增属性,确保后续扩展时保持兼容。
默认启用 FlashInfer top-k/top-p 采样器
建议审核并合并此 PR。它在充分验证(安全测试、分布测试、性能 benchmark)的基础上默认启用了更快的采样器,且提供了完善的回退和降级机制。值得关注的设计决策在于:将默认值迁移到高性能实现,同时通过环境变量允许用户 opt-out,这是良好的兼容性策略。
原始 PR · 作者 amd-lalithnc · 合并时间 2026-04-29 22:21
Backport PT fix 修复 CPU 端 torch.compile 编译错误
值得阅读,特别是了解 vLLM 如何通过 env_override 模式紧急 backport 上游修复。延迟加载 import hook 的实现技巧也值得学习。建议在升级 PyTorch 最低版本到 2.12 前保留此补丁。
新增 hf_name 参数以支持本地数据集加载
建议读者了解此 PR 以熟悉 throughput 基准测试的数据集加载机制。对于需要从本地加载数据集的用户,此参数很实用。
CPU 后端新增 FP8 KV 缓存量化支持
建议精读该 PR,尤其是 generate_cpu_attn_dispatch.py 的调度设计、TileGemm 模板的扩展方式以及 FP8 去量化与 GEMM 的融合技巧。对关注 CPU 推理性能优化的读者有较高参考价值。
修复 DeepSeek V4 RoPE 缓存重复初始化
该 PR 是一个简洁的 bugfix,设计思路清晰,值得参考其如何通过参数化控制父类的副作用。对于维护类似继承结构的开发者有启发意义。
原始 PR · 作者 JaredforReal · 合并时间 2026-04-29 19:35
为 Anthropic 和 OpenAI API 添加 defer_loading 和 tool_reference 支持
值得精读,尤其是理解前端消息转换架构和 Pydantic 序列化技巧。建议尽快补充单元测试和 E2E 测试(可使用 Qwen3 模型),并验证序列化签名在目标 Pydantic 版本下的兼容性。关注 `_convert_block` 中顶级 `tool_reference` 的丢失问题。
参与讨论