Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#22844 [AMD] Optimize _append_shared_to_topk_output by a single fused Triton kernel for Qwen3.5

原始 PR · 作者 hubertlu-tw · 合并时间 2026-04-15 14:50

性能优化重要性 7.53 洞察度 5.00

为AMD平台Qwen3.5 MoE模型优化共享专家追加逻辑，用单个Triton内核融合4次内核启动以提升路由性能。

该PR值得精读，特别是对于关注高性能计算和MoE模型优化的工程师。重点关注新增的Triton内核设计，它展示了如何将多个独立操作融合为单次启动以减少开销，同时保留逐token权重的精度要求。此外，注意其平台特定性（AMD/AITER），这反映了项目中对不同硬件后端的差异化优化策略。

amdperformancemoe

#22852 [Docs] Move ptxas sm_103a workaround into For CUDA 13 section

原始 PR · 作者 nvpohanh · 合并时间 2026-04-15 13:30

文档重要性 2.02 洞察度 3.00

将 B300/GB300 的 ptxas 警告从文档底部移至 CUDA 13 安装步骤，提升可发现性。

该 PR 变更简单直接，属于文档维护性改进。对于工程师而言，无需深入阅读代码，但可以关注此次调整所体现的**文档可发现性设计原则**——将问题解决方案放置在用户最可能遇到的上下文附近，而非通用的“杂项”区域。这对于编写用户友好的技术文档有借鉴意义。

documentationrun-ci

#22810 [diffusion] CI: refactor diffusion ci and reduce redundancy

原始 PR · 作者 mickqian · 合并时间 2026-04-15 10:12

重构重要性 7.29 洞察度 4.00

重构扩散模型CI测试，删除冗余文件并合并测试套件以提升效率。

建议技术管理者关注此PR以了解扩散模型测试基础设施的演进方向，工程师可精读`testcase_configs.py`中的自动模态推断设计和`test_server_common.py`中的失败聚合机制，这些设计决策有助于提升测试健壮性和可维护性。

diffusionrun-citest

#22604 [Diffusion] Standalone Rollout API + Denoising Environment Backpass + SP-Aligned Log-Prob for T2I Post-Training

原始 PR · 作者 Rockdu · 合并时间 2026-04-15 10:10

功能重要性 9.18 洞察度 6.00

为扩散模型后训练新增独立 Rollout API，支持轨迹收集和序列并行对齐的对数概率。

建议精读此 PR 以学习其设计模式：混入类（RolloutDenoisingMixin）分离核心逻辑、SP 对齐策略（避免 all_reduce）和按样本粒度 API 设计。关注 `_kwargs_to_cpu` 的递归问题和文件组织，可能需后续优化。

diffusionfeaturerun-ci

#21773 [AMD][CI] Add GLM-5-MXFP4 accuracy and perf nightly tests for MI35x

原始 PR · 作者 michaelzhang-ai · 合并时间 2026-04-15 09:55

基础设施重要性 7.47 洞察度 3.00

为 AMD MI35x 添加 GLM-5-MXFP4 模型的夜间准确性及性能测试，并清理过时任务。

建议工程团队了解 AMD CI 测试的配置模式，但 PR 本身变更较为直白，无需深入设计决策。重点关注测试配置参数（如准确性阈值、性能输入长度）是否符合项目标准。

amdrun-citest

#22820 Cleanup server_args.py and minor code tidying

原始 PR · 作者 merrymercy · 合并时间 2026-04-15 09:52

重构重要性 7.04 洞察度 3.00

清理 server_args.py 配置文件，内联未使用常量并重新排序代码。

该 PR 值得快速浏览以了解代码整理模式，但无需深入精读，除非关注 server_args 或调度器模块的具体实现。关注点包括常量内联和函数重组的设计决策。

refactorrun-ciconsistency

#20736 [AMD] Enable share expert fusion with router experts for Qwen3.5 BF16 & FP8

原始 PR · 作者 zhentaocc · 合并时间 2026-04-15 09:52

功能重要性 8.57 洞察度 6.00

为AMD平台Qwen3.5 MoE模型启用共享专家融合，减少内核启动以提升推理效率。

推荐工程师精读`can_fuse_shared_expert`条件判断和权重映射逻辑，理解AMD特定优化路径；关注FP8兼容性为待办事项，可参考讨论中的技术权衡。

amdfeatureperformance

#22448 [Bugfix] Fix LFM2-VL offline inference and GPU JPEG decode

原始 PR · 作者 tugot17 · 合并时间 2026-04-15 09:13

缺陷修复重要性 5.51 洞察度 5.00

修复 LFM2-VL 模型离线推理崩溃和图像解码差异，确保与 HuggingFace 输出一致。

该 PR 值得精读，尤其关注：1）GPU 与 CPU 图像解码在视觉模型中的正确性权衡，展示了 nvJPEG 与 PIL 实现差异如何显著影响下游输出；2）PyTorch 装饰器 `@torch.inference_mode()` 与 `@torch.no_grad()` 在推理场景中的适用性区别，以及原地操作与张量类型的交互。建议结合 PR body 中的量化数据理解修复效果。

bugfixmultimodalrun-ci

第 251 / 357 页 · 共 2850 条

上一页 1 … 249 250 251 252 253 … 357 下一页