#37798 [MRV2] Use FP64 for Gumbel noise
作者 WoosukKwon · 合并时间 2026-03-23 03:28
回滚 #34854 变更,使用 FP64 提高 Gumbel 噪声数值稳定性,牺牲大 batch 随机采样性能。
建议精读,特别是 tl_rand64 的实现和性能数据,以理解 Triton 内核中精度与性能的权衡,以及如何通过代码简化提升可读性。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 WoosukKwon · 合并时间 2026-03-23 03:28
回滚 #34854 变更,使用 FP64 提高 Gumbel 噪声数值稳定性,牺牲大 batch 随机采样性能。
建议精读,特别是 tl_rand64 的实现和性能数据,以理解 Triton 内核中精度与性能的权衡,以及如何通过代码简化提升可读性。
作者 zyongye · 合并时间 2026-03-23 03:20
修复 MXFP4 量化层中 LoRA 测试的维度暴露问题。
建议工程师关注此 PR 以了解 MXFP4 量化层中维度暴露的模式,对于处理类似量化或 LoRA 集成的开发有价值。变更简单,无需深入精读,但可作为量化模块维护的参考案例。
作者 WoosukKwon · 合并时间 2026-03-23 02:47
跳过 PW CUDA 图的隐藏状态分配以优化内存使用。
对于从事 CUDA 图优化或 MRV2 开发的工程师,建议精读此 PR 以了解内存优化技巧。关键设计决策在于区分 PW 和 full CUDA 图的处理路径,值得借鉴。
作者 AndreasKaratzas · 合并时间 2026-03-22 17:32
降低语音转文本翻译测试的准确度阈值以稳定ROCm CI。
对于技术管理者,此PR无需精读,变更简单。但值得关注测试阈值的设置策略,以避免类似临时调整。工程师可快速浏览以了解CI稳定措施。
作者 fuscof-ibm · 合并时间 2026-03-21 17:29
优化 Mamba 组获取逻辑,从每批次调用改为创建时一次性计算并重用。
工程师应关注此优化带来的性能收益,但需仔细阅读 review 中的风险提示,考虑在实际部署前评估配置变化的可能性,或未来添加断言以增强鲁棒性。
作者 bongwoobak · 合并时间 2026-03-21 13:48
为Responses API添加kv_transfer_params支持,实现PD disaggregation功能。
建议工程师精读此PR,特别是context.py中guard的设计决策,以理解多回合agentic循环下的状态管理。对于负责Responses API或PD disaggregation的开发者,此PR是重要的功能扩展参考,展示了如何遵循现有模式进行API增强。
作者 zyongye · 合并时间 2026-03-21 11:37
重构 MXFP4 MoE 为 oracle 模式,统一后端选择并简化代码库。
建议工程师精读此 PR,特别是 oracle/mxfp4.py 和新的专家类,以理解 oracle 模式的设计决策和 MXFP4 的后端选择逻辑。关注 review 中解决的初始化和硬编码问题,以及如何统一不同后端的支持方法。对于维护者,需注意潜在的回归风险和测试覆盖。
作者 tmm77 · 合并时间 2026-03-21 11:33
为ROCm平台新增get_device_uuid方法,支持Verl应用的PPO和异步用例。
这是一个小而精的PR,适合关注ROCm支持或平台抽象实现的工程师精读。注意错误处理的设计和边界检查的添加,这些是防御性编程的好例子。
参与讨论