Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 01:50 同步状态:空闲 下次计划:2026-04-19 02:50

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-15
重构 重要性 7.29 洞察度 4.00

重构扩散模型CI测试,删除冗余文件并合并测试套件以提升效率。

建议技术管理者关注此PR以了解扩散模型测试基础设施的演进方向,工程师可精读`testcase_configs.py`中的自动模态推断设计和`test_server_common.py`中的失败聚合机制,这些设计决策有助于提升测试健壮性和可维护性。

为扩散模型后训练新增独立 Rollout API,支持轨迹收集和序列并行对齐的对数概率。

建议精读此 PR 以学习其设计模式:混入类(RolloutDenoisingMixin)分离核心逻辑、SP 对齐策略(避免 all_reduce)和按样本粒度 API 设计。关注 `_kwargs_to_cpu` 的递归问题和文件组织,可能需后续优化。

基础设施 重要性 7.47 洞察度 3.00

为 AMD MI35x 添加 GLM-5-MXFP4 模型的夜间准确性及性能测试,并清理过时任务。

建议工程团队了解 AMD CI 测试的配置模式,但 PR 本身变更较为直白,无需深入设计决策。重点关注测试配置参数(如准确性阈值、性能输入长度)是否符合项目标准。

#22820 Cleanup server_args.py and minor code tidying

作者 merrymercy · 合并时间 2026-04-15 09:52

重构 重要性 7.04 洞察度 3.00

清理 server_args.py 配置文件,内联未使用常量并重新排序代码。

该 PR 值得快速浏览以了解代码整理模式,但无需深入精读,除非关注 server_args 或调度器模块的具体实现。关注点包括常量内联和函数重组的设计决策。

功能 重要性 8.57 洞察度 6.00

为AMD平台Qwen3.5 MoE模型启用共享专家融合,减少内核启动以提升推理效率。

推荐工程师精读`can_fuse_shared_expert`条件判断和权重映射逻辑,理解AMD特定优化路径;关注FP8兼容性为待办事项,可参考讨论中的技术权衡。

缺陷修复 重要性 5.51 洞察度 5.00

修复 LFM2-VL 模型离线推理崩溃和图像解码差异,确保与 HuggingFace 输出一致。

该 PR 值得精读,尤其关注:1)GPU 与 CPU 图像解码在视觉模型中的正确性权衡,展示了 nvJPEG 与 PIL 实现差异如何显著影响下游输出;2)PyTorch 装饰器 `@torch.inference_mode()` 与 `@torch.no_grad()` 在推理场景中的适用性区别,以及原地操作与张量类型的交互。建议结合 PR body 中的量化数据理解修复效果。

修复 Docker 镜像中 runai-model-streamer 依赖缺失和目录创建错误。

此 PR 值得快速审阅,重点关注 Dockerfile 中的依赖添加和目录修复逻辑。对于长期维护,建议后续在 `pyproject.toml` 中统一管理 `runai-model-streamer` 依赖以避免冗余。

参与讨论