Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-20 11:11 同步状态：空闲下次计划：2026-04-20 12:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

已合并 973 · 已分析 970

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-04

#21828 [diffusion] Validate attention backend for Ring Attention in USPAttention

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-04 16:24

缺陷修复重要性 4.00 洞察度 3.00

在扩散模型 Ring Attention 中验证注意力后端，防止后端不匹配导致的静默错误。

该 PR 值得精读，特别是对于关注扩散模型注意力后端兼容性和 Ring Attention 实现的工程师。设计决策简单但关键，展示了如何通过运行时验证防止配置错误导致的隐蔽问题。

diffusionbugfixrun-ci

#17707 Add dsv3 router gemm benchmark on blackwell

原始 PR · 作者 harrisonlimh · 合并时间 2026-04-04 16:18

性能优化重要性 6.00 洞察度 7.00

在 BlackWell 架构上添加 DeepSeekV3 router gemm 基准测试并集成 flashinfer 内核以优化性能。

建议技术管理者精读此 PR，以了解内核集成策略和性能权衡。工程师应关注 `deepseek_v2.py` 中的条件切换逻辑和 PDL 设置决策，这些是设计关键点。基准测试脚本可作为模板用于其他内核对比。

deepseekperformancerun-ci

#22091 [diffusion] Default NVFP4 to CUTLASS and add all-model shape benchmarks

原始 PR · 作者 BBuf · 合并时间 2026-04-04 16:14

性能优化重要性 6.00 洞察度 6.00

将扩散模型NVFP4后端默认值切换为CUTLASS并添加全模型基准测试，优化Blackwell GPU性能。

建议工程师精读`cuda.py`中`get_modelopt_fp4_gemm_op`函数的变更，学习基于基准测试的后端选择策略；测试团队可参考新增基准测试脚本扩展CI覆盖。

quantdiffusionjit-kernel

#21647 [5/n] Lora support cuda graph

原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-04 15:31

功能重要性 7.00 洞察度 7.00

通过预分配缓冲区和两阶段初始化，使MoE LoRA推理支持CUDA graph，优化内存和性能。

该PR值得精读，特别是CUDA graph内存管理设计，如两阶段初始化和缓冲区重用机制，这些决策对性能优化有重要意义。建议关注review中提到的风险点，如动态分配残留和GPU同步，以便在类似项目中借鉴。

lorajit-kernelperformance

#21913 fix: mistral embedding regression fix

原始 PR · 作者 dougyster · 合并时间 2026-04-04 15:11

缺陷修复重要性 6.00 洞察度 5.00

修复 Mistral 嵌入模型因 transformers v5 升级导致的余弦相似度回归问题。

该 PR 值得精读，尤其是对于处理分词器兼容性和 transformers 版本升级问题的工程师。关注点：1) 理解快速分词器与慢速分词器在 add_eos_token 行为上的历史差异；2) 学习如何通过二分法定位回归问题；3) 掌握最小化修复策略，确保与上游参考实现保持一致。

bugfixrun-ciconsistency

#18762 [diffusion] Diffusion norm fusion for z-image

原始 PR · 作者 qimcis · 合并时间 2026-04-04 14:01

性能优化重要性 6.00 洞察度 6.00

通过JIT内核融合RMSNorm和tanh门控，优化Z-Image扩散模型推理速度。

建议阅读者精读此PR，重点关注JIT内核设计细节、融合优化策略以及如何平衡性能与兼容性。特别值得学习CuTeDSL使用和扩散模型层的集成方式。

diffusionjit-kernelperformance

#22076 Tiny fix step3.5-flash launch crash

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-04 13:25

缺陷修复重要性 3.00 洞察度 2.00

修复 step3.5-flash 模型启动崩溃问题，移除未使用的 padding_idx 属性。

该 PR 变更简单直接，适合快速浏览以了解特定模型配置问题的修复方式。对于维护 step3.5 模型相关代码的工程师，值得关注这一配置差异的处理模式。

bugfixrun-ci

#21280 [RL] Support mxfp8 DeepSeek V3

原始 PR · 作者 zianglih · 合并时间 2026-04-04 12:57

功能重要性 6.00 洞察度 7.00

支持 DeepSeek V3 模型在 Blackwell 架构上的 MXFP8 推理优化，修复 BF16 MoE 精度问题。

建议技术管理者关注 PR 中的设计权衡，如保持 bf16 以避免重新量化，这反映了精度与性能的平衡。工程师可精读 `flashinfer_trtllm.py` 的优化部分，学习缓存策略对性能的提升。同时，注意 review 中未解决的架构检查问题，未来需补充相关验证。

deepseekquantfeature

第 63 / 122 页 · 共 973 条

上一页 1 … 61 62 63 64 65 … 122 下一页

支持 Prhub ♥