#35753 [Mamba] Add stochastic rounding support
作者 roikoren755 · 合并时间 2026-03-31 00:33
为 Mamba SSM 内核添加随机舍入支持,提升长序列数值稳定性。
建议技术管理者和工程师精读此 PR,重点关注 Triton 内核中 inline_asm_elementwise 的使用和配置验证设计,这些决策揭示了在硬件特定优化与可移植性之间的权衡。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 roikoren755 · 合并时间 2026-03-31 00:33
为 Mamba SSM 内核添加随机舍入支持,提升长序列数值稳定性。
建议技术管理者和工程师精读此 PR,重点关注 Triton 内核中 inline_asm_elementwise 的使用和配置验证设计,这些决策揭示了在硬件特定优化与可移植性之间的权衡。
作者 hongxiayang · 合并时间 2026-03-30 23:49
修复Quark模型中trust_remote_code硬编码导致的异常,允许用户覆盖并优化性能。
建议精读此PR,关注设计决策如使用预加载hf_config避免硬编码调用、安全字典访问以提升健壮性、以及早期返回逻辑优化性能。同时注意revision参数清理的后续处理。
作者 mgehre-amd · 合并时间 2026-03-30 22:30
修复 compressed-tensors 量化中 ParallelLMHead 未处理的问题,确保 lm_head 权重正确量化。
对于从事量化或 vLLM 核心层开发的工程师,此 PR 值得精读,因为它展示了如何扩展量化方法以支持特定层类型,并提供了完整的测试模式。对于其他开发者,可作为简单 bugfix 参考,了解量化配置的细节处理。
作者 tomeras91 · 合并时间 2026-03-30 21:12
更新 CODEOWNERS 文件,添加 tomeras91 作为 Nemotron 和 Mamba 相关代码的所有者。
此 PR 变更简单,不值得深入精读,但可作为代码所有者管理流程的参考示例。对于维护者或团队管理者,可关注 glob 模式的使用方式,以确保未来类似变更的规范性。
作者 tdoublep · 合并时间 2026-03-30 20:32
移除FLA操作中序列长度小于头数时的假阳性格式不匹配警告。
此PR变更直接,值得快速阅读以理解假阳性警告的移除背景。对于维护FLA模块或处理推理日志的工程师,可关注警告移除的合理性,确保测试覆盖充分,无潜在副作用。
作者 bigPYJ1151 · 合并时间 2026-03-30 20:13
修复CPU后端中线程绑定后禁止更改线程数的bug,避免潜在问题。
这个PR值得精读,因为它展示了猴子补丁的使用场景和潜在风险,关注点在设计权衡:猴子补丁的便利性与调试难度之间的平衡。
作者 AndreasKaratzas · 合并时间 2026-03-30 19:58
为媒体URL添加可选磁盘缓存功能,通过环境变量启用。
该 PR 值得精读,特别是缓存设计和并发处理部分。关注 `_maybe_evict` 中的驱逐策略和原子写实现,这些是处理高并发场景的关键设计决策。
作者 collinmccarthy · 合并时间 2026-03-30 19:09
修复混合注意力 Mamba 模型中 num_blocks 为 2 时的 KV 缓存布局歧义问题。
对于涉及混合注意力或 Mamba 模型的开发者,值得精读 _update_hybrid_attention_mamba_layout 方法,了解如何通过 get_kv_cache_block_dim 处理布局歧义,并参考测试案例确保覆盖边界条件。
参与讨论