#24052 [Docs] quick fix delete --enable-dp-attention in sgl-jax
原始 PR · 作者 JamesBrianD · 合并时间 2026-04-30 15:39
删除 sgl-jax TPU 部署文档中的无效参数
该 PR 是典型的文档 bugfix,逻辑简单,值得快速合入。无需精读源码。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 JamesBrianD · 合并时间 2026-04-30 15:39
删除 sgl-jax TPU 部署文档中的无效参数
该 PR 是典型的文档 bugfix,逻辑简单,值得快速合入。无需精读源码。
原始 PR · 作者 billishyahao · 合并时间 2026-04-30 14:57
为AMD MoRI EP添加SDMA路径支持
该PR提供了明确的硬件加速路径,设计简洁,值得AMD相关开发者关注。建议合并后补充单元测试覆盖SDMA路径的dispatch/combine逻辑,并考虑增加版本检测以增强鲁棒性。
重构 Moss-VL 视觉编码器,替换 Conv3d 并移除死代码
该 PR 是低风险的小范围重构,值得合并。但建议同步更新或添加相关测试(尤其是视觉特征收集流程),以防范未来潜在的回归。
修复 Qwen3.5 FP8 per-tensor 量化权重加载崩溃
值得精读。本 PR 虽改动量小,但精准解决了量化模型权重加载中的语义差异:per-tensor scale 是全局标量应当广播,而非常规张量的分割。Review 建议的代码合并方式(统一 `numel()==1` 分支)也值得借鉴,它消除了断言限制并提升了可读性。新增测试的设计思路(直接 mock 类方法和参数)可作为类似测试的模板。
为 XPU 操作添加确定性模式
值得精读,特别是 `batch_invariant_ops.py` 中通过 `get_dispatch_device_backend` 实现多后端调度的设计模式,以及 layernorm 中条件分支的编写方式,对后续扩展其他硬件有参考意义。PR 表明团队在为 Intel XPU 提供一阶支持,建议关注后续 intel_dev 分支的集成情况。
原始 PR · 作者 opherlieber · 合并时间 2026-04-30 12:51
为Qwen3.5和Nemotron3添加LoRA支持并修复切片bug
值得精读。特别是 _build_moe_gated_map 的设计和 _get_lora_n_slices 的泛化方法,对理解 SGLang LoRA 框架有参考价值。ReplicatedLinearWithLoRA 的修复应关注其对现有模型的兼容性。
优化 diffusion CI 的 GT 上传路径并增加增量发布逻辑
建议精读 `publish_diffusion_gt.py` 中的 `git_blob_sha` + `filter_changed_files` 增量发布模式,该模式可迁移至其他 CI 数据上传场景。工作流参数化 `publish_target_dir` 的设计也值得在其他 CI 中复用。
修复 MiMo 测试属性名不匹配问题
无需精读。属于紧跟主仓库重构的配套补丁,逻辑简单,开发者可参考此类模式确保测试与源码同步更新。
参与讨论