Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#24582 [NPU] Enhance accuracy for model Step3_5 from 0 to 88%

原始 PR · 作者 McZyWu · 合并时间 2026-05-29 11:29

缺陷修复重要性 7.53 洞察度 7.00

NPU 端 Step-3.5 模型精度从 0% 提升至 88%

建议 NPU 后端开发者和模型适配者仔细研读此 PR，特别是 FIA sparse_mode 4 与自定义 mask 的组合技巧、激活函数 clamp 的设计、以及 CANN 版本兼容性处理。对于使用 Step-3.5-Flash 的用户，强烈建议升级并按文档设置环境变量以获得最佳精度。未来的工作可以考虑将 `swiglustep_and_mul` 迁移至 `sgl-kernel-npu`，并为此路径补充单元测试。

npuattentionperformance

#22587 [EPD] Optimize the Mooncake backend

原始 PR · 作者 LucQueen · 合并时间 2026-05-29 10:42

性能优化重要性 9.36 洞察度 7.00

Mooncake GPU 间 RDMA 零拷贝传输视觉嵌入

该 PR 值得精读，展示了在分离推理架构中利用 GPUDirect RDMA 进行优化的实践，涉及异步流程、缓冲区管理和安全编码。设计中考虑安全性的提升（safe_pickle_loads）值得参考。后续优化方向（缓冲区池化、设备保留）可作为进一步研究点。

performanceschedulingmultimodal

#26642 [AMD] ci: switch CACHE_HOST to a fresh path to fix "No space left on device"

原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-29 10:40

基础设施重要性 2.95 洞察度 2.00

更改 AMD CI 缓存路径解决磁盘空间不足

可快速合入以解除 AMD CI 阻塞。后续应清理或扩容持久缓存卷，以恢复缓存复用。

amdciinfra

#26466 [NPU] chore: basic software upgrade

原始 PR · 作者 monkeyLoveding · 合并时间 2026-05-29 10:04

基础设施重要性 5.40 洞察度 5.00

NPU 平台基础软件升级（CANN 9.0.0、PyTorch 2.10.0）

此 PR 为 NPU 平台的必需基础设施升级，建议尽快合并并密切观察后续 CI 和 nightly 测试结果。值得关注的设计决策是 `set-image-config` job 的使用，它为多镜像环境下的版本管理提供了可扩展模式。建议在后续 PR 中跟进解决以下问题：将 nightly 测试的重复代码提取为公共脚本；将 Dockerfile 中硬编码版本替换为变量引用；与 sgl-kernel-npu 团队协调发布修复版本。

npuciinfra

#24160 [lora] Share MoE LoRA Info

原始 PR · 作者 erikwijmans · 合并时间 2026-05-29 10:01

性能优化重要性 8.65 洞察度 5.00

共享 MoE LoRA batch 信息减少重复计算

建议对 `weight_indices` 可能为 `-1` 的情况进行防御性处理（如掩码后 scatter），并增加相应测试。在非 CUDA 平台上验证 kernel 兼容性。整体设计良好，值得精读。

loraperformancerefactor

#26628 Revert "Fix FA DRAFT_EXTEND_V2 cache extent"

原始 PR · 作者 ch-wan · 合并时间 2026-05-29 09:45

缺陷修复重要性 6.41 洞察度 4.00

回滚 DRAFT_EXTEND_V2 cache extent 修复并推迟 CUDA graph 测试

建议读者重点关注此回滚的背景：当前 `DRAFT_EXTEND_V2` 的 cache extent 问题尚未解决，团队选择了暂时回退。如果使用相关特性，应切换到其他 attention 后端（如 Triton）或等待后续修复。同时值得阅读 `KNOWN_FAILURES.md` 中的详细记录，了解根因和所需变更。

documentationattentionbugfix

#26257 [XPU] Fix Device Assignment

原始 PR · 作者 SKRohit · 合并时间 2026-05-29 09:38

缺陷修复重要性 6.56 洞察度 5.00

修复 XPU 设备分配，适配多模型

建议合并。该 PR 解决了 XPU 上的关键阻塞问题，设计简洁，改动量小。但建议作者或团队后续补充针对这些模型的 XPU 单元测试，并跟进 `_match_cos_sin_cache_dtype` 是否有更优实现（如初始化时就匹配 dtype）。

xpubugfixmultimodal

#26353 NPU Nightly Pipeline Skip Test Case Adaptation and Recovery Testing

原始 PR · 作者 liuxianglong17 · 合并时间 2026-05-29 09:29

测试重要性 7.17 洞察度 4.00

恢复并适配 NPU Nightly 跳过的测试用例

建议合并。该 PR 恢复了重要的 nightly 测试覆盖，且针对环境变化做了适配，review 中提出的问题均已解决。后续可考虑增加内存监控或资源限制来防止潜在 OOM。

nputestci

第 52 / 357 页 · 共 2850 条

上一页 1 … 50 51 52 53 54 … 357 下一页