#22836 [Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init
作者 merrymercy · 合并时间 2026-04-16 05:04
修复Eagle3/DFLASH推测解码在CUDA图捕获时辅助隐藏状态未启用的问题。
该PR值得精读,特别是对于涉及CUDA图捕获和推测解码的开发者。关注点包括:初始化顺序的重要性、配置集中化的设计决策、以及如何避免重复调用导致的参数不一致。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 merrymercy · 合并时间 2026-04-16 05:04
修复Eagle3/DFLASH推测解码在CUDA图捕获时辅助隐藏状态未启用的问题。
该PR值得精读,特别是对于涉及CUDA图捕获和推测解码的开发者。关注点包括:初始化顺序的重要性、配置集中化的设计决策、以及如何避免重复调用导致的参数不一致。
作者 klshuster · 合并时间 2026-04-16 04:47
优化多LoRA解码Triton sgemm内核网格调度,通过适配器排序减少GPU块启动数。
该PR值得精读,重点关注内核中`_resolve_token_positions`的设计和排序实现,以及性能权衡;建议结合基准测试评估实际收益,并注意测试覆盖的完整性。
作者 Fridge003 · 合并时间 2026-04-16 04:40
修复FlashMLA稀疏内核精度问题,更新外部依赖版本。
该PR值得关注,因为它展示了通过更新外部依赖修复核心内核精度问题的典型模式。虽然变更简单,但揭示了项目对第三方内核库的依赖管理策略。建议阅读时结合Issue #21291理解问题背景,并关注后续是否添加准确性验证测试。
作者 Jiminator · 合并时间 2026-04-16 04:25
修复 GLM NextN 推测解码中草稿模型自动检测量化配置被丢弃的问题
该 PR 值得精读,因为它展示了在推测解码中处理量化配置不匹配的典型问题及解决方案。关注点:1) 如何平衡命令行参数与自动检测配置的优先级;2) 条件逻辑的设计如何保持向后兼容性;3) 性能数据验证修复效果。
作者 yhyang201 · 合并时间 2026-04-16 01:14
修复 Kimi-K2.5 多模态模型在 TP 并行时每个 rank 在 device 0 上重复创建 CUDA 上下文的内存浪费问题。
该 PR 值得精读,重点关注其如何通过简单的数据移动(CPU 卸载)和键名标准化解决跨进程 CUDA 上下文重复初始化的深层问题。设计决策包括:1) 优先内存优化而非微秒级数据传输开销;2) 清理未使用代码以简化维护;3) 遵循 SGL 标准键名以启用未来功能。建议结合多模态数据处理流程和 TP 通信机制理解变更。
作者 huangtingwei9988 · 合并时间 2026-04-15 23:50
为混合模型(如KV+Mamba)的HiCache添加上下文并行(CP)支持。
该PR值得快速浏览,以了解HiCache如何扩展支持混合模型的上下文并行。重点关注`HybridCacheController`的参数扩展设计,以及review中关于参数来源不一致的讨论,这反映了代码库中潜在的配置管理问题。
作者 whybeyoung · 合并时间 2026-04-15 22:34
为 mini_lb 功能添加 Rust 依赖缺失时的降级处理,避免导入失败。
该 PR 变更简单直接,适合快速浏览以了解环境兼容性处理模式。值得关注的设计决策是使用 try-except 进行可选依赖导入,这是一种常见的 Python 模块化技术。
作者 BBuf · 合并时间 2026-04-15 21:30
更新 ModelOpt 量化文档并扩展 B200 GPU 上的 CI 测试覆盖。
建议快速浏览文档更新部分以了解量化模型的最新支持;重点关注 `_make_modelopt_ci_case` 函数的设计,它展示了如何标准化创建量化测试用例;检查测试文件中的死引用问题是否已解决。
参与讨论