Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-30

#25754 [MLX] Support Qwen3.5 (dense) Model

原始 PR · 作者 yeahdongcn · 合并时间 2026-05-30 17:05

功能 重要性 9.18 洞察度 7.00

支持 Qwen3.5 混合模型,重构 MLX 缓存体系

值得精读。特别是 attention_contract.py 的鸭式类型设计、auxiliary_state.py 的快照机制,以及混合批处理的性能优化思路。可作为 MLX 后端适配异构 Transformer 结构的参考。

#25976 [DeepSeek-V4] Add mhc_fused_post_pre kernel

原始 PR · 作者 JoeLee314 · 合并时间 2026-05-30 17:04

功能 重要性 9.13 洞察度 7.00

融合 DeepSeek-V4 mHC 后/前步长 kernel,解码性能 +3.35%

建议精读,重点关注 `mhc_fused_post_pre_fma_tilelang` 的 TileLang 实现和融合调度策略,对 LLM 推理 kernel fusion 有参考价值。同时注意其与现有 TileLang mHC 路径的依赖关系。

重构 重要性 8.38 洞察度 5.00

迁移 SM90 cutlass MXFP4 到统一 MoeRunner

值得精读,特别是对于理解 SGLang 的 MoE runner 架构演进和 FusedOpPool 设计模式。展示了如何通过注册机制将特定 kernel 路径统一到通用调度框架中。同时关注 gemini-code-assist 提出的空输入风险,建议在后续迭代中考虑添加防御性检查。

缺陷修复 重要性 5.08 洞察度 3.00

修复 MoE LoRA 缺少 moe_runner_config 属性导致崩溃

作为关键回归修复,建议合并并同步至相关发布分支。该 PR 值得所有使用 MoE LoRA 场景的读者关注,其修复方式也为类似属性透传问题提供了参考模式。

缺陷修复 重要性 5.02 洞察度 5.00

优化 mooncake intraNode NVLink 元数据分配与传输

本 PR 改动小但依赖 PR#26394 的正确性,建议精读 PR#26394 确认 all-reduce 修复的可靠性。值得关注的是将 `send_aux` 从 TCP 迁移到 NVLink 的权衡逻辑,以及代码审查中发现的 Python 语法陷阱。

基础设施 重要性 6.05 洞察度 5.00

优化 CI 覆盖率报告触发与覆盖范围,新增 XPU/MUSA 和多模态测试

建议合入本 PR。基础设施改进,通过断言保障可维护性,启发式规则有告警机制,风险可控。后续可继续减少 CPU 测试数量或迁移更多测试至注册框架。

基础设施 重要性 5.91 洞察度 5.00

允许 /rerun-test 调度 nightly/weekly CUDA 测试

建议关注该 PR 的设计模式:通过映射表与共享解析函数保持配置单一事实源,降低 future 维护成本。适合作为 CI 脚本扩展的参考样例。

缺陷修复 重要性 7.86 洞察度 6.00

修复 CuteDSL MoE 缓冲区按首次 forward 分配导致的运行时崩溃

**值得精读**。该 PR 展示了一个典型的“首次 forward 大小推断不准确”导致的缓冲区问题及其系统级修复方法。关键设计决策包括:将动态传参改为静态配置上限、利用 `__post_init__` 中已解析的字段做快速失败验证、以及跨 allgather/A2A 路径统一 bound 计算。适合对 MoE 推理和 CUDA-graph 缓冲区管理感兴趣的工程师深入阅读。

参与讨论