Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 20:05 同步状态：空闲下次计划：2026-06-07 21:05

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-27

#21490 Simplify flush_cache: reject concurrent requests, remove client-side retry

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-27 07:31

重构重要性 6.00 洞察度 5.00

简化flush_cache逻辑，移除客户端重试，改用服务器端超时并拒绝并发请求。

建议技术管理者和工程师精读scheduler.py的改动，特别是flush_cache_wrapped和_check_pending_flush函数，以理解并发拒绝和超时处理的设计决策；同时关注测试文件更新，学习如何迁移到新API并确保测试覆盖。

refactortestscheduling

#21495 Fix concurrent /rerun-ut posting duplicate workflow URLs

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-27 07:26

缺陷修复重要性 6.00 洞察度 4.00

修复并发执行/rerun-ut命令时机器人重复发布工作流URL的问题。

此PR值得CI维护者和对GitHub Actions优化感兴趣的工程师精读。关注`find_workflow_run_url`函数中匹配逻辑的改进（如何通过test_command唯一标识运行）和评论合并的设计决策（将多步骤反馈整合为单个消息），这些是提升CI用户体验的有效模式。

bugfixci

#21492 Fix benchmark generating empty prompts when random_input_len is small

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-27 07:24

缺陷修复重要性 4.00 洞察度 2.00

修复benchmark在random_input_len=1时生成空提示的bug，防止服务器错误。

这个PR是一个简单的bugfix，变更逻辑直白。对于工程师，如果关心benchmark正确性或CI稳定性，可以快速浏览以了解问题根源。但整体上，无需深入分析设计决策。

bugfixcitest

#21496 Revert "bugfix for weight loading for qwen3-next"

原始 PR · 作者 Fridge003 · 合并时间 2026-03-27 07:17

缺陷修复重要性 5.00 洞察度 3.00

回退 Qwen3-next 模型权重加载属性的错误修复，将 _weight_loader 恢复为 weight_loader。

建议工程师关注权重加载测试的覆盖情况，确认回退是否解决了潜在问题；对于技术管理者，需注意此回退可能反映之前修复的不稳定性，值得审视相关测试和验证。

bugfixquant

#21413 Api add flush cache timeout

原始 PR · 作者 Wenjun7J · 合并时间 2026-03-27 05:44

功能重要性 6.00 洞察度 5.00

为flush_cache API添加超时参数，允许在系统繁忙时等待空闲后刷新缓存。

建议阅读python/sglang/srt/managers/scheduler.py中的flush_cache_wrapped和_check_pending_flush方法，了解超时队列设计；同时关注单元测试以验证正确性。对于调度器开发者和API用户，此PR提供了处理异步状态等待的参考模式。

featureschedulingtest

#21391 Fix Kimi K2.5 dp attention+ spec decoding launch crash

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-03-27 05:40

缺陷修复重要性 7.00 洞察度 5.00

修复Kimi K2.5在DP注意力+推测解码下因多模态输入嵌入处理导致的启动崩溃。

建议工程师精读此PR，特别关注llama_eagle3.py中forward函数的多模态输入条件处理逻辑，以及assert使用的最佳实践。对于技术管理者，需注意review中指出的潜在风险，并督促后续代码重构以提升清晰度。

bugfixspeculative-decodingtest

#20562 Use torch.addmm instead of separate mm and add_ calls for LoRA torch.native

原始 PR · 作者 satyamk7054 · 合并时间 2026-03-27 05:35

性能优化重要性 5.19 洞察度 6.00

LoRA torch-native 后端融合 mm+add_ 为 addmm

值得精读。该 PR 展示了典型的 PyTorch 算子融合优化模式（将多次 CUDA 内核调用合并为一次 `addmm`），是性能调优的经典案例。同时，`.item()` 使用和 CPU 张量预分配的做法值得借鉴。

loraperformancerefactor

#20564 fix: torch-native LoRA for multi-adapter case

原始 PR · 作者 satyamk7054 · 合并时间 2026-03-27 05:34

缺陷修复重要性 5.35 洞察度 4.00

修复 torch-native LoRA 多适配器 tensor 尺寸不匹配

值得合并，修复明确且风险低。建议开发者关注其他 LoRA 后端（如 torch_trtllm）是否存在类似 `batch_size` vs segment 数的假设。

lorabugfixtest

第 337 / 358 页 · 共 2863 条

上一页 1 … 335 336 337 338 339 … 358 下一页