Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#20862 [Diffusion] add FireRed-Image-Edit models

原始 PR · 作者 yuumn · 合并时间 2026-03-23 10:27

功能重要性 5.00 洞察度 5.00

添加FireRed-Image-Edit模型支持，解决配置差异问题。

该PR值得精读，了解如何通过配置适配扩展新模型支持，重点关注token ID字段的添加和注册逻辑的设计决策。

featurediffusion

#20697 Fix VRAM leak in overlap scheduling with structured output (#20640)

原始 PR · 作者 Cishoon · 合并时间 2026-03-23 08:07

缺陷修复重要性 7.00 洞察度 5.00

修复在启用重叠调度和结构化输出时的VRAM泄漏问题。

建议工程团队精读此PR，重点关注闭包环境下GPU张量生命周期的管理策略，可作为异步调度中内存优化的参考案例。

bugfixperformancescheduling

#20978 perf: pad max-num-requests in decode cuda graph for higher coverage

原始 PR · 作者 happierpig · 合并时间 2026-03-23 08:06

性能优化重要性 5.00 洞察度 5.00

通过padding max-num-requests避免CUDA graph捕获中被过滤，提升性能覆盖范围。

建议精读以理解CUDA graph捕获中的padding策略和性能优化技巧，重点关注get_batch_sizes_to_capture函数的改动，对于涉及图形捕获的开发者有参考价值。

performance

#20214 [FlashInfer v0.6.6][RL] Support fp8-last-n-bf16 RL for `flashinfer_trtllm_routed` moe backend

原始 PR · 作者 zianglih · 合并时间 2026-03-23 02:17

功能重要性 6.00 洞察度 5.00

集成 FlashInfer v0.6.6 的 bf16 routed moe 支持，完善 MXFP8 RL 训练后端。

建议精读此 PR，关注量化后端集成设计（如 `flashinfer_trtllm.py` 中的路由逻辑）和权重形状恢复机制（如 `unquant.py` 中的方法），这些决策对处理混合精度权重更新有借鉴价值。

quantfeaturerun-ci

2026-03-22

#21122 [Diffusion] Clean up diffusion Triton kernels and modernize custom op registration

原始 PR · 作者 BBuf · 合并时间 2026-03-22 22:38

重构重要性 6.00 洞察度 4.00

清理扩散Triton内核，移除死代码并现代化自定义操作注册。

建议技术管理者和工程师精读本PR，重点关注norm.py中自定义操作注册的现代化设计决策，以及scale_shift.py中死代码移除的合理性评估。对于review中未解决的代码重复问题，可考虑后续PR进行重构。

diffusionrefactor

#21130 Add ut guide to test skills

原始 PR · 作者 ispobock · 合并时间 2026-03-22 20:55

文档重要性 3.00 洞察度 4.00

更新 SGLang 测试编写指南，新增单元测试专用指导和模板。

该 PR 值得测试开发者和文档维护者精读，以了解 SGLang 测试框架的最新最佳实践。关注点包括单元测试与集成测试的分离、CI 套件选择规则，以及 review 中提到的文档对齐问题。

documentation

#20887 CUTLASS FP8 Blockwise GEMM improvement of SM120

原始 PR · 作者 b8zhong · 合并时间 2026-03-22 17:55

性能优化重要性 6.00 洞察度 5.00

优化SM120 FP8 GEMM kernel，通过pingpong schedule提升小M性能。

建议技术管理者关注此PR，因为它展示了性能优化的实际收益和硬件特定调优。工程师值得精读代码，学习基于运行时条件的schedule选择策略和CUTLASS集成最佳实践。

performancerefactorfeature

#20910 Add SGLang CUDA crash API logging inspired by FlashInfer

原始 PR · 作者 BBuf · 合并时间 2026-03-22 16:39

功能重要性 6.00 洞察度 6.00

添加SGLang CUDA崩溃API日志记录功能，用于调试LLM和扩散内核调用边界。

建议技术管理者和工程师精读本PR，重点关注以下方面： - **设计决策**：`python/sglang/kernel_api_logging.py`中的装饰器实现，如何集成环境变量控制和dump生成，值得学习可配置调试系统设计。 - **代码优化**：自动推断op名称的机制，减少手动维护，展示Python装饰器高级用法。 - **review洞察**：讨论中的命名约定和类型友好性改进，提供了软件工程最佳实践案例。

featuredocumentationdebugging

第 352 / 357 页 · 共 2850 条

上一页 1 … 350 351 352 353 354 … 357 下一页