为Xiaomi MiMo-V2.5添加多模态与EAGLE推测解码支持
此 PR 是小米模型的完整集成,值得详细审阅,特别是 fused-qkv 装载模式、多模态处理器设计以及 VisionAttention 增强。合并后应关注 Gemma4 和其他多模态模型的回归测试。
SGLang is a high-performance serving framework for large language models and multimodal models.
为Xiaomi MiMo-V2.5添加多模态与EAGLE推测解码支持
此 PR 是小米模型的完整集成,值得详细审阅,特别是 fused-qkv 装载模式、多模态处理器设计以及 VisionAttention 增强。合并后应关注 Gemma4 和其他多模态模型的回归测试。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-30 23:49
添加DeepSeek V4 AMD夜间镜像发布
这是一次纯粹的CI/CD配置变更,对于非AMD平台的工程师可忽略。但AMD团队应关注构建成功率,并考虑添加构建后的测试验证步骤。
原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-30 20:05
修复NPU OffloaderV2的meta和sharded_gpu模式兼容问题
该PR虽是bugfix但涉及offloader核心路径和NPU后端的关键操作,值得相关维护者精读。'_move_param_to_meta' 中的weight_loader补全和NPU格式转换的meta跳过是两个值得注意的设计决策,体现了对框架参数迁移和异构设备支持的深入理解。
重构AWQ量化模块,拆解为scheme结构并分离后端内核
**值得精读**。该 PR 展示了如何将庞大历史遗留模块拆解为 scheme + kernel 的干净架构,其设计思路可以借鉴到其他量化方法(如 GPTQ、FP8)甚至非量化的模型层。重点关注 `get_quant_method` 的分派逻辑、`_init_kernel` 钩子模式以及 hardware_backend 的隔离策略。
原始 PR · 作者 merrymercy · 合并时间 2026-04-30 19:43
删除遗留测试目录并更新 NPU CI 路径
建议合并。这是一个积极的维护行为,可以快速通过。后续可检查是否还有其他残留的旧路径引用。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-30 17:12
修复 piecewise CUDA graph 与 MoE dense TP 的兼容性
值得精读,特别是关注 MoE 并行策略与 CUDA graph 捕获兼容性的开发者。设计简单且可维护。
原始 PR · 作者 opherlieber · 合并时间 2026-04-30 16:12
修复边界条件,允许总 token 数等于 context_len 的请求
可以快速合并。变更简单安全,建议添加单元测试覆盖边界情况以确保未来重构时不会回归。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-30 16:11
修复LoRA CUDA graph中seg_indptr标量赋值导致的同步点
值得快速合并,但建议在后续 PR 中补充 CUDA graph 兼容性测试,避免类似回归。
参与讨论