修复动态形状编译测试在 torch 2.12 中的脆弱性
该 PR 适合快速合入,解决 torch 2.12 升级后的测试回归。变更简单,review 已通过。值得关注的是「用更可靠的数值比较替代字符串断言」的测试设计思路,适用于其他脆弱测试场景。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复动态形状编译测试在 torch 2.12 中的脆弱性
该 PR 适合快速合入,解决 torch 2.12 升级后的测试回归。变更简单,review 已通过。值得关注的是「用更可靠的数值比较替代字符串断言」的测试设计思路,适用于其他脆弱测试场景。
支持 DeepSeek V4 Base 模型(FP8 专家)
值得精读,尤其是 `DeepseekV4FP8Config.expert_dtype` 的 lazy 解析设计——这是一种解决 config 对象构造与实际配置上下文分离之间的常见模式,代码风格清晰。此外,观察 `_make_deepseek_v4_weights_mapper` 如何根据运行时属性动态选择权重映射也很有参考价值。建议关注后续是否补充单元测试。
原始 PR · 作者 jikunshang · 合并时间 2026-04-28 08:04
升级 XPU 内核至 v0.1.7 并移除挂起测试
变更简单、安全,可直接合并。建议关注后续 CI 中 lora 相关测试的状态,并跟进 test_qwenvl.py hang 问题的根因修复。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-28 06:38
跳过草稿预填充前的注意力元数据重建
该PR值得精读,尤其是对v1推测解码架构和CUDA图捕获流程感兴趣的开发者。`PrefillEagleCudaGraphManager`与`DecodeEagleCudaGraphManager`的拆分设计可复用。由于缺少测试覆盖和潜在的签名不匹配风险,建议合入前补充至少一个端到端测试用例验证不同推测配置。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-28 04:08
补充ROCm量化注册并修复测试
该PR已合并,值得所有维护ROCm后端的工程师精读。核心学习点包括:(1)平台抽象层如何通过`supported_quantization`列表控制量化方法可见性;(2)测试中通过`is_cuda_alike()`而非`is_cuda()`实现多平台兼容的模式;(3)`get_current_memory_usage`应使用`max_memory_allocated`而非`total-free`以确保准确性。对于关注Quark量化或MXFP4 MoE的开发者,`quark_moe.py`中的仿真条件设计值得参考。
更新TRTLLM MoE路由枚举,新增SigmoidRenorm和MiniMax2
值得精读,特别是在枚举分类和路由方法检测逻辑上的设计决策,以及如何系统性地更新所有专家内核的支持列表。对 DeepSeek、MiniMax 模型部署和维护有兴趣的工程师应重点关注。
Docker 中安装 numactl 命令行工具
简单的依赖修复 PR,可直接合并。建议后续检查 dev 阶段是否需要同步添加。
多模态错误信息改为展示用户可读模型名
该 PR 改动简单清晰,适合快速合入。不建议深入阅读。
参与讨论