修复 starcoder2-3b 测试 flaky 问题
值得精读。这是一个典型的因浮点精度差异导致的测试 flaky 修复方案:通过调整输入 prompt 使模型输出更稳定,而非放宽测试断言。体现了对问题根源的跟踪和分析。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 starcoder2-3b 测试 flaky 问题
值得精读。这是一个典型的因浮点精度差异导致的测试 flaky 修复方案:通过调整输入 prompt 使模型输出更稳定,而非放宽测试断言。体现了对问题根源的跟踪和分析。
原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-12 18:03
修复 XPU 测试因全局 random 状态导致的 flaky 问题
此类测试可重复性 bugfix 值得精读,作为团队编写确定性测试的范例。
调整发布流水线顺序,构建完成后统一发布
该 PR 改动安全且必要,建议合并。后续可单独处理 gemini-code-assist 提出的 nightlty 条件过滤建议,进一步提升 nightly 自动化程度。
最后3个B200任务迁移至b200-k8s队列
该 PR 为纯 CI 基础设施变更,生产代码无改动,重要性较低,无需精读。但建议关注 review 中提到的 `source_file_dependencies` 缺失问题,应在后续 PR 中补全,避免回归检测盲区。同时,DeepSeek MTP 测试在 Blackwell 上的持续失败需要进一步调查,可能需提交单独 bugfix 或彻底禁用该测试。
原始 PR · 作者 kg6-sleipnir · 合并时间 2026-05-12 16:45
修复 /v1/responses 中 function_call_output 缺失 channel/recipient
建议尽快合并并发布,因为该修复直接提升 gpt-oss 等依赖 responses API 的工具调用准确率。开发者可关注后续 `reasoning` 分支健壮性改进以及测试文件合并建议。
修复 FlashInfer NVLink 双 reduce 精度问题
此 PR 虽改动极小(两行代码),但修复了严重的精度问题,值得所有使用 FlashInfer NVLink 后端的用户合入。开发者在升级 FlashInfer 版本时需重新测试该兼容性契约。
迁移 4 个 B200 CI 任务到新 k8s 队列
该 PR 属常规基础设施迁移,技术复杂度低。建议关注后续 PR #42387 中剩余 3 个任务的迁移和测试修复。
合并与整理语音转文本入口点,将代码独立到 speech_to_text 包
值得阅读以了解入口点分离的设计模式,特别是 `factories.py` 的集中注册思路。可以学习如何通过包组织来管理多个端点。
参与讨论