Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-20 21:17 同步状态：空闲下次计划：2026-04-20 22:17

PR 列表

已合并 986 · 已分析 986

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-02

#21920 Migrate ngram corpus from torch cpp_extension to TVM FFI jit_kernel

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-02 17:18

重构重要性 6.00 洞察度 7.00

将ngram corpus从PyTorch C++扩展迁移到TVM FFI JIT内核，解决CI缓存不可靠问题。

建议技术管理者精读此PR，重点关注TVM FFI的设计模式（如不透明句柄）、线程安全处理（互斥锁使用）和性能优化策略（CSR转换），这些对于类似C++扩展迁移项目有直接借鉴价值。

jit-kernelrefactorspeculative-decoding

#20799 Fix spec v2 + logprob when max_num_token is set

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-02 16:55

缺陷修复重要性 5.00 洞察度 4.00

修复 spec v2 下设置 max_num_token 时 logprob 长度超过 output_ids 的问题。

建议精读 stream_output_generation 函数的变更，关注 logprob 切片逻辑的设计决策，特别是 max(len(output_ids_), 1) 的处理方式；对于涉及 speculative decoding 或调度输出的开发者，此 PR 展示了处理输出对齐的常见模式，值得参考。

bugfixspeculative-decodingrun-ci

#21842 test: add manual init test for mooncake transfer engine

原始 PR · 作者 foraxe · 合并时间 2026-04-02 16:01

测试重要性 4.00 洞察度 5.00

添加Mooncake transfer engine的手动初始化测试，验证门控逻辑和分布式初始化。

建议值得精读，尤其是测试脚本的设计如何通过mock和patch模拟分布式初始化，以及如何避免条件逻辑重复的讨论，对编写可靠的手动测试有借鉴意义。

testrun-cihicache

#21922 Revert "Rollback flashmla to older version [1/2]"

原始 PR · 作者 Fridge003 · 合并时间 2026-04-02 15:27

重构重要性 6.00 洞察度 5.00

回滚FlashMLA版本降级，升级到新版本并扩展CUDA内核支持。

该PR值得内核开发者和构建维护者精读，重点关注CMake中内核列表的扩展和头文件补丁的调整。设计决策上，FlashMLA版本升级和内核扩展反映了对最新GPU架构支持的持续投入，但需注意review中未解决的代码质量建议。

refactorjit-kernelrun-ci

#21914 [DSA] Set trtllm kernels as default for Blackwell

原始 PR · 作者 Fridge003 · 合并时间 2026-04-02 15:22

功能重要性 5.00 洞察度 4.00

为Blackwell GPU设置TRTLLM内核为默认NSA后端，提升性能。

该PR值得快速浏览，特别是对于关注Blackwell GPU性能优化的工程师。关键设计决策是简化默认配置逻辑，移除临时条件以充分利用硬件能力。建议关注：1. 变更是否彻底解决了原始性能回归问题（Issue #21291）。2. 测试结果是否充分覆盖了各种dp_size和模型场景。

featureperformancerun-ci

#21840 scheduler: add prefill-only update in merge batch

原始 PR · 作者 happierpig · 合并时间 2026-04-02 14:33

缺陷修复重要性 5.00 洞察度 4.00

修复调度器合并批次时prefill-only标志未正确更新的内存泄漏问题。

该PR值得快速浏览以理解调度器批次标志管理的缺陷。重点关注merge_batch中布尔标志的更新模式，以及gemini-code-assist[bot]提出的filter_batch中状态一致性问题，这揭示了调度器内部状态机设计的潜在改进点。

bugfixschedulingrun-ci

#20394 [NVIDIA] Enable fp8 flashinfer_trtllm_routed MoE for MiniMax-M2.5

原始 PR · 作者 trevor-m · 合并时间 2026-04-02 14:02

性能优化重要性 6.00 洞察度 5.00

为MiniMax-M2.5启用FP8 flashinfer_trtllm_routed MoE，提升解码性能9.04%。

建议工程师精读flashinfer_trtllm.py中的数据类型处理逻辑和fp8.py中的权重对齐扩展，以理解性能优化细节；同时关注外部依赖bug的解决进度，以便未来移除临时绕过代码。

performancequantdeepseek

#21910 Fix ngram doc for speculative_num_draft_tokens default

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-02 13:18

documentation 重要性 2.00 洞察度 1.00

修正ngram推测解码文档中--speculative-num-draft-tokens默认值的错误描述。

该PR属于简单的文档修正，技术内容简单明了。对于大多数工程师来说，无需深入阅读代码变更。建议： 1. 文档维护者可以关注此修正，确保类似参数描述的准确性。 2. 推测解码功能的使用者可以快速浏览此变更，了解参数默认值的正确信息。 3. 无需作为技术设计决策的参考案例。

documentationspeculative-decoding

第 74 / 124 页 · 共 986 条

上一页 1 … 72 73 74 75 76 … 124 下一页

支持 Prhub ♥