Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 13:37 同步状态：空闲下次计划：2026-06-07 14:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-04

#21735 fix ut test_moe

原始 PR · 作者 huaiyuzh · 合并时间 2026-04-04 12:57

缺陷修复重要性 4.00 洞察度 3.00

修复 XPU 环境下 DeepSeek OCR 测试的内存泄漏和配置问题，提升 CI 稳定性。

对于负责 XPU 测试或 CI 维护的工程师，此 PR 值得精读，特别是 _cleanup_xpu_memory 实现和内存配置调整，以学习资源密集型测试的优化策略。设计决策中测试隔离和内存管理值得关注。

bugfixtestrun-ci

#16711 Add `--stream-response-default-include-usage` server flag

原始 PR · 作者 syd520zy · 合并时间 2026-04-04 12:36

功能重要性 6.00 洞察度 5.00

添加服务器标志强制流式响应包含使用信息，便于服务器端监控。

建议工程师精读此PR，重点关注should_include_usage函数的设计决策，它统一了流式使用信息处理逻辑，避免了代码重复；同时，参数命名的演变体现了设计权衡，值得学习。对于涉及服务器配置或openai服务开发的人员，此PR提供了实用的监控功能。

featurerefactorrun-ci

#22064 [Diffusion] Fix weight scale swizzle and add large-M kernel config for FLUX.2-dev-NVFP4

原始 PR · 作者 RubiaCx · 合并时间 2026-04-04 11:50

缺陷修复重要性 6.00 洞察度 5.00

修复NVFP4量化扩散模型的权重缩放交织并优化大M核配置。

建议扩散模型和量化模块的工程师精读此PR，关注权重swizzle修复的实现细节（`modelopt_quant.py`中的reshape/permute操作）和核配置优化的设计决策（`nvfp4_scaled_mm_sm100.cuh`中的集群调整），以理解NVFP4量化在Blackwell GPU上的最佳实践和性能调优技巧。

quantdiffusionjit-kernel

#22083 dp: add profile req hook

原始 PR · 作者 happierpig · 合并时间 2026-04-04 11:47

缺陷修复重要性 5.00 洞察度 4.00

修复DP注意力模式下ProfileReq分发缺失导致的死锁问题。

该PR值得快速浏览，以了解DP注意力模式下控制消息分发的设计模式。关注点：1) 分发器如何映射消息类型到处理方法。2) send_to_all_workers与send_control_message的差异。3) 通信器扇出预期与分发策略的匹配。

bugfixschedulingrun-ci

#21851 GLM-4.7 and GLM-4.7-Flash Loading and import format

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-04 11:44

重构重要性 6.00 洞察度 5.00

更新 GLM-4.7 和 GLM-4.7-Flash 模型的加载逻辑与导入格式，移除 Eagle 实现并同步量化处理。

此 PR 值得精读，特别是关注共享专家量化处理的设计决策和跨平台兼容性调整。建议工程师重点关注 glm4_moe.py 中的 FP8 类型检查和 forward_normal_dual_stream 缩放逻辑，以学习如何避免常见平台差异和双重计算错误。

refactorrun-ciquant

#20707 [diffusion] model: support two stage pipeline of LTX-2

原始 PR · 作者 Prozac614 · 合并时间 2026-04-04 09:37

功能重要性 7.00 洞察度 6.00

支持LTX-2模型的两阶段视频生成管道，新增上采样器和精炼阶段。

该PR值得精读，特别是管道阶段设计（upsampling.py中的阶段分离）和上采样器实现，对于理解扩散模型两阶段生成和组件加载有参考价值。关注配置灵活性和错误处理机制，以及性能优化点。

diffusionfeaturelora

#22080 [Test] Extract common PD server setup into base fixture

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-04 07:37

重构重要性 4.00 洞察度 3.00

提取PD解耦服务器公共启动逻辑到基类夹具，简化测试代码并减少重复。

该PR值得测试工程师和基础设施开发者精读，以学习如何设计可复用的测试夹具。关注`extra_prefill_args`和`extra_decode_args`的自定义机制，以及`launch_all()`的封装模式，这些设计决策有助于提高测试代码的模块化和维护性。

testrefactorrun-ci

#20273 fix: pause_generation should not populate running_batch on prefill nodes

原始 PR · 作者 lawrence-harmonic · 合并时间 2026-04-04 07:16

缺陷修复重要性 6.00 洞察度 5.00

修复 pause_generation 在 prefill 节点泄漏请求导致调度停顿的 bug。

建议工程师精读此 PR，特别是 `scheduler.py` 中 `pause_generation` 方法的变更，以理解调度器中 prefill 节点的特殊处理逻辑和避免泄漏的设计决策。关注条件检查的添加位置和原因，以及测试如何模拟泄漏场景验证修复。对于学习调度机制和边界条件处理有参考价值。

bugfixrun-cischeduling

第 299 / 357 页 · 共 2853 条

上一页 1 … 297 298 299 300 301 … 357 下一页