Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 13:37 同步状态:空闲 下次计划:2026-06-07 14:37

PR 列表

更多筛选
2026-04-04

#21735 fix ut test_moe

原始 PR · 作者 huaiyuzh · 合并时间 2026-04-04 12:57

缺陷修复 重要性 4.00 洞察度 3.00

修复 XPU 环境下 DeepSeek OCR 测试的内存泄漏和配置问题,提升 CI 稳定性。

对于负责 XPU 测试或 CI 维护的工程师,此 PR 值得精读,特别是 _cleanup_xpu_memory 实现和内存配置调整,以学习资源密集型测试的优化策略。设计决策中测试隔离和内存管理值得关注。

功能 重要性 6.00 洞察度 5.00

添加服务器标志强制流式响应包含使用信息,便于服务器端监控。

建议工程师精读此PR,重点关注should_include_usage函数的设计决策,它统一了流式使用信息处理逻辑,避免了代码重复;同时,参数命名的演变体现了设计权衡,值得学习。对于涉及服务器配置或openai服务开发的人员,此PR提供了实用的监控功能。

缺陷修复 重要性 6.00 洞察度 5.00

修复NVFP4量化扩散模型的权重缩放交织并优化大M核配置。

建议扩散模型和量化模块的工程师精读此PR,关注权重swizzle修复的实现细节(`modelopt_quant.py`中的reshape/permute操作)和核配置优化的设计决策(`nvfp4_scaled_mm_sm100.cuh`中的集群调整),以理解NVFP4量化在Blackwell GPU上的最佳实践和性能调优技巧。

#22083 dp: add profile req hook

原始 PR · 作者 happierpig · 合并时间 2026-04-04 11:47

缺陷修复 重要性 5.00 洞察度 4.00

修复DP注意力模式下ProfileReq分发缺失导致的死锁问题。

该PR值得快速浏览,以了解DP注意力模式下控制消息分发的设计模式。关注点:1) 分发器如何映射消息类型到处理方法。2) send_to_all_workers与send_control_message的差异。3) 通信器扇出预期与分发策略的匹配。

重构 重要性 6.00 洞察度 5.00

更新 GLM-4.7 和 GLM-4.7-Flash 模型的加载逻辑与导入格式,移除 Eagle 实现并同步量化处理。

此 PR 值得精读,特别是关注共享专家量化处理的设计决策和跨平台兼容性调整。建议工程师重点关注 glm4_moe.py 中的 FP8 类型检查和 forward_normal_dual_stream 缩放逻辑,以学习如何避免常见平台差异和双重计算错误。

功能 重要性 7.00 洞察度 6.00

支持LTX-2模型的两阶段视频生成管道,新增上采样器和精炼阶段。

该PR值得精读,特别是管道阶段设计(upsampling.py中的阶段分离)和上采样器实现,对于理解扩散模型两阶段生成和组件加载有参考价值。关注配置灵活性和错误处理机制,以及性能优化点。

重构 重要性 4.00 洞察度 3.00

提取PD解耦服务器公共启动逻辑到基类夹具,简化测试代码并减少重复。

该PR值得测试工程师和基础设施开发者精读,以学习如何设计可复用的测试夹具。关注`extra_prefill_args`和`extra_decode_args`的自定义机制,以及`launch_all()`的封装模式,这些设计决策有助于提高测试代码的模块化和维护性。

缺陷修复 重要性 6.00 洞察度 5.00

修复 pause_generation 在 prefill 节点泄漏请求导致调度停顿的 bug。

建议工程师精读此 PR,特别是 `scheduler.py` 中 `pause_generation` 方法的变更,以理解调度器中 prefill 节点的特殊处理逻辑和避免泄漏的设计决策。关注条件检查的添加位置和原因,以及测试如何模拟泄漏场景验证修复。对于学习调度机制和边界条件处理有参考价值。

参与讨论