Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-30

#23929 [AMD] Support sdma path for moriep

原始 PR · 作者 billishyahao · 合并时间 2026-04-30 14:57

功能 重要性 5.89 洞察度 5.00

为AMD MoRI EP添加SDMA路径支持

该PR提供了明确的硬件加速路径,设计简洁,值得AMD相关开发者关注。建议合并后补充单元测试覆盖SDMA路径的dispatch/combine逻辑,并考虑增加版本检测以增强鲁棒性。

重构 重要性 7.37 洞察度 4.00

重构 Moss-VL 视觉编码器,替换 Conv3d 并移除死代码

该 PR 是低风险的小范围重构,值得合并。但建议同步更新或添加相关测试(尤其是视觉特征收集流程),以防范未来潜在的回归。

缺陷修复 重要性 7.77 洞察度 5.00

修复 Qwen3.5 FP8 per-tensor 量化权重加载崩溃

值得精读。本 PR 虽改动量小,但精准解决了量化模型权重加载中的语义差异:per-tensor scale 是全局标量应当广播,而非常规张量的分割。Review 建议的代码合并方式(统一 `numel()==1` 分支)也值得借鉴,它消除了断言限制并提升了可读性。新增测试的设计思路(直接 mock 类方法和参数)可作为类似测试的模板。

#16793 Add deterministic mode for XPU operations

原始 PR · 作者 jthakurH · 合并时间 2026-04-30 13:39

功能 重要性 6.53 洞察度 6.00

为 XPU 操作添加确定性模式

值得精读,特别是 `batch_invariant_ops.py` 中通过 `get_dispatch_device_backend` 实现多后端调度的设计模式,以及 layernorm 中条件分支的编写方式,对后续扩展其他硬件有参考意义。PR 表明团队在为 Intel XPU 提供一阶支持,建议关注后续 intel_dev 分支的集成情况。

#23594 LoRA support for qwen3.5 and nemotron3

原始 PR · 作者 opherlieber · 合并时间 2026-04-30 12:51

功能 重要性 9.18 洞察度 6.00

为Qwen3.5和Nemotron3添加LoRA支持并修复切片bug

值得精读。特别是 _build_moe_gated_map 的设计和 _get_lora_n_slices 的泛化方法,对理解 SGLang LoRA 框架有参考价值。ReplicatedLinearWithLoRA 的修复应关注其对现有模型的兼容性。

基础设施 重要性 5.53 洞察度 5.00

优化 diffusion CI 的 GT 上传路径并增加增量发布逻辑

建议精读 `publish_diffusion_gt.py` 中的 `git_blob_sha` + `filter_changed_files` 增量发布模式,该模式可迁移至其他 CI 数据上传场景。工作流参数化 `publish_target_dir` 的设计也值得在其他 CI 中复用。

参与讨论