Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 20:05 同步状态：空闲下次计划：2026-06-07 21:05

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#21634 Simplify routed experts test and move base64 encoding to tokenizer manager

原始 PR · 作者 merrymercy · 合并时间 2026-03-30 03:44

重构重要性 5.00 洞察度 5.00

重新启用并简化 routed experts 测试，将 base64 编码移至 tokenizer manager 以优化 IPC 序列化。

建议工程师精读 `test_return_routed_experts.py` 和 `tokenizer_manager.py` 的变更，关注测试配置的优化策略（如 GPU 需求减少和阈值放宽）以及 base64 编码逻辑的移动设计，以理解 IPC 边界序列化的改进。对于核心开发者，可检查编码移动是否与其他 IPC 组件（如 ZMQ 传输）协调一致。

testrefactorci

#20621 [Fix] Remove redundant allreduce fusion block and skip TP=1

原始 PR · 作者 mmangkad · 合并时间 2026-03-30 03:30

缺陷修复重要性 4.00 洞察度 3.00

修复移除冗余allreduce融合块，跳过TP=1以消除误导性日志。

建议工程师快速浏览以了解配置调整逻辑，特别是处理GPU特定优化时。对于涉及allreduce融合或日志系统的开发人员，此PR提供了简洁的修复示例。

bugfixdebuggingperformance

#19915 [Fix] SGLANG_USE_CUDA_IPC_TRANSPORT=1 and SGLANG_ENABLE_MM_SPLITTING=1 do not work at the same time.

原始 PR · 作者 wili-65535 · 合并时间 2026-03-30 01:15

缺陷修复重要性 6.00 洞察度 6.00

修复CUDA IPC传输与多模态分割同时启用时的兼容性问题。

建议工程师精读此PR，重点关注`schedule_batch.py`中的reconstruct方法和from_dict逻辑变更，学习如何优雅处理CUDA IPC代理与多模态分割的交互。同时，review中关于video路径和copy.deepcopy的讨论值得借鉴，以预防类似设计缺陷。

bugfixperformancetest

#21418 [Perf] Optimize CUDA IPC for multimodal transfer by caching IPC pool handles

原始 PR · 作者 saatwiknagpal · 合并时间 2026-03-30 00:20

性能优化重要性 7.00 洞察度 6.00

通过缓存CUDA IPC池句柄优化多模态传输性能，提升调度效率。

建议技术管理者和工程师精读此PR，重点关注缓存机制的设计（如线程安全实现、失效处理）和多模态数据传输路径的优化策略，这对理解SGLang性能调优和关键路径优化有参考价值，同时注意测试覆盖不足的风险。

performancefeaturerefactor

#19749 [Feature] Optimizations for JPEG input on NVIDIA GPU

原始 PR · 作者 wili-65535 · 合并时间 2026-03-30 00:06

功能重要性 6.00 洞察度 7.00

在NVIDIA GPU上优化JPEG输入解码，直接转GPU张量以减少CPU-GPU传输。

建议精读此PR，重点关注GPU解码优化设计（如回退机制）、兼容性处理（开关标志使用）以及性能测试方法（latency测量）。对于涉及多模态处理的工程师，可借鉴如何平衡性能提升与模型兼容性。

featureperformancerefactor

2026-03-29

#21565 [sgl] disable piecewise cuda graph when a model doesn't have layers

原始 PR · 作者 bixue2010 · 合并时间 2026-03-29 23:04

缺陷修复重要性 5.00 洞察度 4.00

修复EAGLE3模型因缺少layers属性导致piecewise CUDA graph崩溃的bug。

该PR值得快速阅读，以了解SGLang中piecewise CUDA graph与非标准模型兼容性的设计决策。重点关注review中关于代码顺序的权衡讨论，这揭示了团队在处理robustness和readability时的优先考虑。

bugfixperformancespeculative-decoding

#19835 fix cuda graph capturing error in sm120 mxfp8 triton path

原始 PR · 作者 wolfcomos · 合并时间 2026-03-29 16:59

缺陷修复重要性 6.00 洞察度 4.00

修复SM120 MXFP8 Triton路径中CUDA图捕获错误，通过预计算GPU支持标志。

建议负责GPU优化或量化模块的工程师阅读此PR，了解CUDA图与动态编译交互的常见陷阱；变更虽小，但揭示了避免在编译路径中调用非纯函数的重要性，值得学习设计决策。

bugfixperformancequant

#21626 Clean up _wait_for_scheduler_ready implementation

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-29 16:02

重构重要性 4.00 洞察度 5.00

优化调度器就绪等待逻辑，使用多路复用避免顺序轮询延迟。

建议工程师精读此 PR，以了解多进程通信中多路复用设计和错误处理抽象的实现细节。设计决策如使用 wait() 替代顺序轮询值得关注，可作为类似场景的参考。

refactorschedulingdebugging

第 328 / 358 页 · 共 2863 条

上一页 1 … 326 327 328 329 330 … 358 下一页