Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-22

#18233 Support Qwen3 MoE context parallel

原始 PR · 作者 Shunkangz · 合并时间 2026-03-22 16:27

功能重要性 8.00 洞察度 7.00

为Qwen3-MoE模型添加预填充阶段的上下文并行支持，显著降低长序列推理延迟。

建议技术管理者和工程师精读此PR，重点关注CP设计决策、通信优化和性能权衡。对于从事并行推理开发的团队，该PR提供了上下文并行的实现案例，值得借鉴其模块化设计（如`cp_utils.py`分离工具逻辑）和review中的技术讨论（如allreduce组选择）。同时，注意未解决的风险（如通信开销）和后续重构任务。

featureperformancerefactor

#20393 [Spec][Ngram] 1/N: Reference based Speculative Decoding refactor

原始 PR · 作者 kpham-sgl · 合并时间 2026-03-22 15:55

重构重要性 6.00 洞察度 5.00

重构Ngram类架构，提取共享代码并支持match_type参数，为可插拔缓存后端铺路。

该PR值得精读，特别是关注设计决策如避免模板而采用包装器模式，以及如何提取共享代码以支持可插拔后端。对于从事speculative decoding或缓存系统开发的工程师，建议仔细审查重构后的类结构、测试覆盖和参数传递逻辑。

refactordocumentation

#21121 ci(slash-cmd): allow write-permission users to /rerun-ut on fork PRs

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-22 15:45

基础设施重要性 4.00 洞察度 3.00

放宽对 fork PRs 的 /rerun-ut 命令权限，允许有写权限的用户触发单元测试重运行。

这是一个小但重要的 CI 基础设施变更，对于负责 CI 流程的工程师值得快速浏览，以理解权限管理策略。关注 `handle_rerun_ut` 函数中的安全检查和撤销多余代码的决策，同时考虑采纳 review 中的代码风格建议以提升可维护性。

refactor

#20962 [Diffusion] Fix torch.compile RMSNorm fallback for Z-Image

原始 PR · 作者 BBuf · 合并时间 2026-03-22 15:38

性能优化重要性 6.00 洞察度 6.00

修复Z-Image模型在torch.compile下的RMSNorm回退问题，显著提升推理性能。

建议工程师精读此PR，重点关注`layernorm.py`中fp32路径的条件分支设计，以及`rmsnorm_onepass.py`中自定义操作注册的用法，这些是优化torch.compile下Triton内核稳定性的有效模式。对于管理决策，可视为针对特定模型的高回报性能修复。

diffusionperformancedocumentation

#21120 ci(slash-cmd): allow repo write-permission users to /rerun-ut

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-22 15:32

基础设施重要性 4.00 洞察度 3.00

允许仓库写权限用户在任何PR上使用/rerun-ut命令。

PR变更较小，逻辑清晰，值得快速review以确认权限检查逻辑和错误处理的正确性。关注GitHub API集成部分，确保在API调用失败时有适当的降级或日志记录。

refactor

#20778 [FlashAttn] Add fused triton kernel for normal_decode_set_metadata

原始 PR · 作者 libowen2121 · 合并时间 2026-03-22 15:12

性能优化重要性 7.00 洞察度 6.00

添加融合Triton内核优化normal_decode_set_metadata，提升解码性能。

建议技术管理者和工程师精读此PR，关注Triton内核设计中的优化技巧，如分块处理、掩码使用和专用路径平衡，以及输入验证的最佳实践。

performancerefactorfeature

#20679 [diffusion] fix: fix accuracy for some image models

原始 PR · 作者 mickqian · 合并时间 2026-03-22 15:11

缺陷修复重要性 6.00 洞察度 5.00

修复多个图像扩散模型的准确性问题，通过对齐官方实现和修复序列并行偏差。

建议扩散模型开发者和维护者精读此PR，特别是qwen_image.py和zimage.py中的序列并行处理设计，以及USPAttention的扩展实现，以学习多GPU下注意力机制的优化策略和对齐官方实现的技巧。

diffusionbugfixperformance

#21119 Update write-sglang-test skill: CUDA-only for common tests + prefer mock

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-22 13:54

文档重要性 4.00 洞察度 4.00

更新SGLang测试编写技能，添加后端无关测试仅用CUDA和优先使用mock的规则。

对于负责编写或维护测试的开发者，值得精读以了解新规则和实践，特别是后端无关测试的CI注册策略和mock使用的权衡。对于其他工程师，可浏览以了解测试策略优化方向。关注的设计决策包括如何平衡测试覆盖与CI资源消耗。

documentationperformancerefactor

第 353 / 357 页 · 共 2850 条

上一页 1 … 351 352 353 354 355 … 357 下一页