Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 14:40 同步状态：空闲下次计划：2026-06-07 15:40

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#18569 Add symmetric debug mode to print stack trace of comm ops with unregistered tensors

原始 PR · 作者 nvcastet · 合并时间 2026-04-09 13:34

功能重要性 5.00 洞察度 4.00

新增对称内存调试模式，打印通信操作中未注册张量的堆栈跟踪。

建议开发者在调试分布式内存问题时精读pynccl_allocator.py中的debug_check_symmetric_mempool函数，关注其去重机制和堆栈跟踪生成方式，这对于理解对称内存池管理有价值。

debuggingdocumentationrun-ci

#22335 [AMD] Fix multimodal diffusion test crash on ROCm by falling back to SDPA

原始 PR · 作者 bingxche · 合并时间 2026-04-09 13:32

缺陷修复重要性 5.00 洞察度 6.00

修复AMD ROCm平台多模态扩散测试崩溃，通过回退到SDPA解决FA3不支持问题。

该PR值得精读，特别是对于关注跨平台兼容性和注意力后端分发机制的工程师。关键设计决策包括：1. 在FA3支持检测中添加平台无关的防护，避免硬编码CUDA依赖；2. 在ROCm后端选择器中显式处理FA3不支持情况，保持逻辑清晰。建议关注HaiShaw提出的长期修复方向，了解团队对ROCm平台FlashAttention支持的规划。

amddiffusionjit-kernel

#22353 [SKILL] add torch profiler analysis workflow

原始 PR · 作者 BBuf · 合并时间 2026-04-09 12:53

功能重要性 6.00 洞察度 6.00

新增统一的Torch Profiler分析工作流程，提供内核分类、重叠分析和修复功能。

建议技术管理者关注此PR的设计决策，如两阶段跟踪分析和内核分类策略。工程师可精读 `scripts/analyze_sglang_torch_profile.py` 以了解性能分析最佳实践，并参考技能文档应用于实际模型分析。

documentationfeatureperformance

#22418 Move runai model loader test to nightly suite

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-09 12:39

基础设施重要性 3.00 洞察度 3.00

将Runai模型加载测试从PR CI移至夜间测试套件，解决慢速和稳定性问题。

该PR变更直接，适合快速浏览以了解CI测试套件调整策略。值得关注的是如何将慢速、不稳定的测试从PR CI移至夜间测试的决策，这对优化CI流水线有参考价值。无需深入代码细节。

run-citest

#22374 [diffusion] fix: fix cache dit refresh none mask

原始 PR · 作者 mickqian · 合并时间 2026-04-09 11:58

缺陷修复重要性 5.00 洞察度 4.00

修复缓存DIT刷新时mask为None的bug，并优化分布式预热图像处理。

建议开发者和维护者精读`cache_dit_integration.py`的变更，理解缓存mask处理的条件逻辑设计；同时关注`scheduler.py`中的分布式预热优化，这对于多GPU或集群部署有参考价值。

bugfixdiffusionrun-ci

#20960 [Feature] Add token embedding overrides for sparse embedding replacement

原始 PR · 作者 fortunecookiee · 合并时间 2026-04-09 11:51

功能重要性 7.00 洞察度 6.00

新增稀疏token嵌入覆盖功能，允许在指定位置注入预计算嵌入向量。

建议工程师精读此PR，了解如何设计稀疏嵌入覆盖API，以及内部如何集成到tokenization、调度和模型执行流程。特别关注前缀缓存和CUDA图的处理机制，以避免性能退化，并学习PositionalEmbeds数据结构的应用。

featureschedulingmultimodal

#22230 [Feature] Support eagle3 for qwen3-vl

原始 PR · 作者 litmei · 合并时间 2026-04-09 11:45

功能重要性 5.00 洞察度 4.00

为Qwen3-VL模型添加EAGLE3推测解码支持，提升推理性能。

建议技术管理者关注此PR作为多模态模型性能优化的一部分。对于工程师，值得关注set_eagle3_layers_to_capture的默认层选择策略，以及forward方法中aux_hidden_states的处理方式。虽然变更较小，但涉及核心推理路径，建议结合EAGLE3相关代码一起理解。

featuremultimodalscheduling

#22306 Lazy import flash_attention_v4 to avoid loading flash_attn.cute at startup

原始 PR · 作者 merrymercy · 合并时间 2026-04-09 11:40

重构重要性 4.00 洞察度 3.00

延迟导入flash_attention_v4模块，消除服务器启动时的日志噪音和性能开销。

该PR值得快速浏览，特别是对于关注启动性能优化和代码组织模式的工程师。关键设计决策是将重量级导入延迟到实际使用点，这是一个常见的Python优化模式。建议关注flash_attention.py中的实现方式，以及如何平衡导入开销与代码清晰度。

jit-kernelrun-cirefactor

第 279 / 357 页 · 共 2855 条

上一页 1 … 277 278 279 280 281 … 357 下一页