Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-30

#25754 [MLX] Support Qwen3.5 (dense) Model

原始 PR · 作者 yeahdongcn · 合并时间 2026-05-30 17:05

功能重要性 9.18 洞察度 7.00

支持 Qwen3.5 混合模型，重构 MLX 缓存体系

值得精读。特别是 attention_contract.py 的鸭式类型设计、auxiliary_state.py 的快照机制，以及混合批处理的性能优化思路。可作为 MLX 后端适配异构 Transformer 结构的参考。

featurekv-cacherefactor

#25976 [DeepSeek-V4] Add mhc_fused_post_pre kernel

原始 PR · 作者 JoeLee314 · 合并时间 2026-05-30 17:04

功能重要性 9.13 洞察度 7.00

融合 DeepSeek-V4 mHC 后/前步长 kernel，解码性能 +3.35%

建议精读，重点关注 `mhc_fused_post_pre_fma_tilelang` 的 TileLang 实现和融合调度策略，对 LLM 推理 kernel fusion 有参考价值。同时注意其与现有 TileLang mHC 路径的依赖关系。

featuredeepseekperformance

#26489 [MoE Refactor] Migrate SM90 Cutlass W4A16 to MoeRunner

原始 PR · 作者 yuan-luo · 合并时间 2026-05-30 17:02

重构重要性 8.38 洞察度 5.00

迁移 SM90 cutlass MXFP4 到统一 MoeRunner

值得精读，特别是对于理解 SGLang 的 MoE runner 架构演进和 FusedOpPool 设计模式。展示了如何通过注册机制将特定 kernel 路径统一到通用调度框架中。同时关注 gemini-code-assist 提出的空输入风险，建议在后续迭代中考虑添加防御性检查。

refactorperformancetest

#26710 Fix MoE LoRA wrapper exposing moe_runner_config

原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-30 16:59

缺陷修复重要性 5.08 洞察度 3.00

修复 MoE LoRA 缺少 moe_runner_config 属性导致崩溃

作为关键回归修复，建议合并并同步至相关发布分支。该 PR 值得所有使用 MoE LoRA 场景的读者关注，其修复方式也为类似属性透传问题提供了参考模式。

bugfixloramoe

#26707 [Bugfix] Optimize metadata allocation and transfer for mooncake intraNode NVLink

原始 PR · 作者 TTThanos · 合并时间 2026-05-30 16:52

缺陷修复重要性 5.02 洞察度 5.00

优化 mooncake intraNode NVLink 元数据分配与传输

本 PR 改动小但依赖 PR#26394 的正确性，建议精读 PR#26394 确认 all-reduce 修复的可靠性。值得关注的是将 `send_aux` 从 TCP 迁移到 NVLink 的权衡逻辑，以及代码审查中发现的 Python 语法陷阱。

bugfixperformancekv-cache

#26619 [CI] ci-coverage-overview: schedule + manual only, include XPU/MUSA/multimodal_gen

原始 PR · 作者 alisonshao · 合并时间 2026-05-30 16:39

基础设施重要性 6.05 洞察度 5.00

优化 CI 覆盖率报告触发与覆盖范围，新增 XPU/MUSA 和多模态测试

建议合入本 PR。基础设施改进，通过断言保障可维护性，启发式规则有告警机制，风险可控。后续可继续减少 CPU 测试数量或迁移更多测试至注册框架。

ciinfratest

#26624 ci: allow /rerun-test to dispatch nightly/weekly CUDA tests

原始 PR · 作者 alisonshao · 合并时间 2026-05-30 16:35

基础设施重要性 5.91 洞察度 5.00

允许 /rerun-test 调度 nightly/weekly CUDA 测试

建议关注该 PR 的设计模式：通过映射表与共享解析函数保持配置单一事实源，降低 future 维护成本。适合作为 CI 脚本扩展的参考样例。

ciinfratest

#26696 [bugfix]: size CuteDSL MoE allgather buffers for the worst-case forward

原始 PR · 作者 Jiminator · 合并时间 2026-05-30 15:27

缺陷修复重要性 7.86 洞察度 6.00

修复 CuteDSL MoE 缓冲区按首次 forward 分配导致的运行时崩溃

**值得精读**。该 PR 展示了一个典型的“首次 forward 大小推断不准确”导致的缓冲区问题及其系统级修复方法。关键设计决策包括：将动态传参改为静态配置上限、利用 `__post_init__` 中已解析的字段做快速失败验证、以及跨 allgather/A2A 路径统一 bound 计算。适合对 MoE 推理和 CUDA-graph 缓冲区管理感兴趣的工程师深入阅读。

bugfixquantperformance

第 44 / 357 页 · 共 2850 条

上一页 1 … 42 43 44 45 46 … 357 下一页