#37657 [CI][PD] Add Hybrid SSM integration tests to CI
作者 NickLucche · 合并时间 2026-03-23 23:58
添加Hybrid SSM NixlConnector集成测试到CI,扩展测试覆盖。
这是一个简单的CI测试添加,不值得深入精读。工程师可关注模型从Nemotron改为Granite的决策,以了解测试资源优化和配置调整的思路。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 NickLucche · 合并时间 2026-03-23 23:58
添加Hybrid SSM NixlConnector集成测试到CI,扩展测试覆盖。
这是一个简单的CI测试添加,不值得深入精读。工程师可关注模型从Nemotron改为Granite的决策,以了解测试资源优化和配置调整的思路。
作者 angelayi · 合并时间 2026-03-23 23:21
在 split_graph 中使用 lazy graph module 延迟 recompile(),节省约 226ms 编译时间。
建议技术管理者和工程师精读此 PR,重点关注使用私有 API 进行性能优化的设计权衡,以及未来兼容性考虑。代码改动虽简单,但讨论揭示了在依赖第三方库内部实现时的常见挑战,值得作为案例学习。
作者 he-yufeng · 合并时间 2026-03-23 23:15
修复RoBERTa模型在CUDA图模式下位置ID累积导致的崩溃问题。
建议工程团队精读此PR,了解CUDA图下缓冲区管理的陷阱,特别是避免原地操作持久状态。对于涉及模型嵌入层或CUDA图优化的代码,此修复提供了良好实践参考。对于维护RoBERTa相关模块的开发者,建议重点关注位置处理逻辑的变更。
作者 yanghui1-arch · 合并时间 2026-03-23 22:59
修复RoBERTa模型在CUDA图模式下位置ID累积导致的崩溃问题。
建议工程师精读此PR,理解CUDA图模式下tensor重用和模型特定逻辑的交互。重点关注设计决策:选择在model runner中修复而非模型层,以预防未来类似bug。变更虽小,但揭示了优化场景下的微妙陷阱,值得学习以增强代码健壮性。
作者 yewentao256 · 合并时间 2026-03-23 22:34
修复 vllm/config 模块的 mypy 类型检查错误,提升代码质量。
建议维护 config 模块的工程师精读此 PR,了解类型修正的具体模式,特别是 type ignore 的使用场景和 None 值处理。对于一般开发者,快速浏览以熟悉 mypy 修复策略即可,无需深入分析。
作者 aaab8b · 合并时间 2026-03-23 21:07
修复 ROCm 平台上睡眠模式无法释放 GPU 内存的问题。
对于从事 ROCm 平台开发或内存管理的工程师,值得精读此 PR,了解针对 ROCm 的内存释放变通方法。关注虚拟地址保持的设计决策,以及 review 中提到的潜在重构点。
作者 jeejeelee · 合并时间 2026-03-23 19:42
修复 LoRA 日志输出中的模块列表错误。
变更简单,主要值得关注 review 讨论中的性能优化建议,可作为代码风格和性能考量的学习案例,无需深入阅读代码逻辑。
作者 DorBernsohn · 合并时间 2026-03-23 19:35
修复 CPU 后端在零化 KV 缓存块时因 Triton GPU 内核导致的崩溃。
建议工程师快速浏览此 PR,重点关注 CPU 后端如何处理 KV 缓存无效位置,以及如何避免 GPU 内核调用。对于涉及 Triton 与 CPU 集成的开发者,此 PR 展示了简单而有效的设计决策。
参与讨论