在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。
标签列表
聚合结果
在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-06 14:30
清理 trtllm_mla backend 中冗余的 init_mha_chunk_metadata 方法
可直接合并,改动清晰、风险低。但建议作者简单说明为何原冗余定义中参数不一致,以便他人理解历史背景。
在cookbook中更新Xeon CPU支持信息
建议阅读该 PR,特别是 `disabledWhen` 和 `condition()` 的设计模式,展示了如何优雅地组织硬件依赖的 UI 选项。同时注意交叉检查多个模型页面的一致性,确保命令参数的准确性。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-06-06 13:26
修复 DSA 配置覆盖问题并支持 index_skip_topk_offset
本 PR 值得精读,特别是对 DSA 注意力机制、推测解码顶层索引管理、以及大规模模型服务配置兼容性感兴趣的开发者。关键设计决策包括:如何安全地跨 MTP 步骤重用 topk 索引、skip_topk 门控的精确语义、以及 TBO 与索引共享的不兼容性处理。建议在部署启用 index_topk_sharing 的模型时关注此变更。
原始 PR · 作者 RolaoDenthu · 合并时间 2026-06-06 09:26
修复 AMD 上 DSV4 FP4 indexer 的属性错误和 warp mask 编译错误
值得快速查阅,尤其是关注跨平台 warp shuffle 兼容性处理模式。代码改动量小(+8/-2),逻辑清晰,适合作为 AMD 特殊修复的参考范例。
删除 DeepSeek V4 发布 Docker 构建工作流
该 PR 简单明确,无需精读。关注点在于确认 DeepSeek V4 的发布是否已完全迁移,避免遗漏。
原始 PR · 作者 thanhhao98 · 合并时间 2026-06-06 07:08
修复 EAGLE3 draft num_nextn_predict_layers=0 时层数计算错误
建议尽快合入并发布补丁,该修复解决了 EAGLE3 的一个显式崩溃问题,且风险极低。同时建议在相关测试中增加 num_nextn_predict_layers=0 的边界测试用例。
修复 Waterfill 与动态 EPLB 在 fused shared experts 下的兼容性
此 PR 是 DeepEP+EPLB 兼容路径的关键修复,维护者应快速合入。代码设计清晰(通过分离 recorder ID 避免统计污染),可作为处理类似混合专家 ID 空间的参考实现。