Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

lora 相关 PR

2026-06-06
功能 重要性 9.00 洞察度 6.00

实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x

该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。

2026-06-02

#23179 [LoRA] add lora chunked req test and fix

原始 PR · 作者 glenliu21 · 合并时间 2026-06-02 07:25

缺陷修复 重要性 4.58 洞察度 3.00

修复 LoRA 分块请求槽位遗漏

值得阅读以了解 LoRA 调度中的分块请求处理陷阱。虽然代码改动极小,但反映了状态同步容易遗漏的典型场景。

2026-05-30
缺陷修复 重要性 5.08 洞察度 3.00

修复 MoE LoRA 缺少 moe_runner_config 属性导致崩溃

作为关键回归修复,建议合并并同步至相关发布分支。该 PR 值得所有使用 MoE LoRA 场景的读者关注,其修复方式也为类似属性透传问题提供了参考模式。

#20876 [lora] More efficient pinned memory

原始 PR · 作者 erikwijmans · 合并时间 2026-05-30 08:05

性能优化 重要性 7.79 洞察度 5.00

优化 LoRA pinned 内存:按 rank 切片且流水线化传输

本 PR 是 LoRA 加载路径的一次重要优化,设计简洁高效,值得精读。重点理解流水线 pinning 的实现方式(`_get_maybe_cached_weight_for_transfer` 的生成器模式)以及 dtype 转换策略(`copy_weight_into_buffer` 的惰性设备转换)。

2026-05-29

#24160 [lora] Share MoE LoRA Info

原始 PR · 作者 erikwijmans · 合并时间 2026-05-29 10:01

性能优化 重要性 8.65 洞察度 5.00

共享 MoE LoRA batch 信息减少重复计算

建议对 `weight_indices` 可能为 `-1` 的情况进行防御性处理(如掩码后 scatter),并增加相应测试。在非 CUDA 平台上验证 kernel 兼容性。整体设计良好,值得精读。

2026-05-28
缺陷修复 重要性 6.97 洞察度 4.00

修复 Diffusion LoRA 精度与一致性验证

该 PR 修复了 diffusion LoRA 多个边界情况,并加强了测试覆盖,值得 review 和 merge。特别关注 FP32 合并默认值变更和 lora_alpha 加载的设计决策。

2026-05-27
缺陷修复 重要性 5.53 洞察度 4.00

修复 LFM2 模型 YARN RoPE 参数未正确传递的问题

此 PR 值得合并,修复了一个 silent correctness bug,改动量极小且正确性有验证数据支撑。推荐精读以理解类似配置兼容性问题的处理模式(优先新键、安全 fallback),这一模式已在多个模型(如 Qwen3)中复用。

2026-05-25
缺陷修复 重要性 6.98 洞察度 7.00

修复重叠加载时取消请求导致 LoRA slot 泄漏

值得精读。该 PR 展示了一个经典的状态管理 bug 及其优雅的修复方式:用不变式(uid_to_buffer_id)替代可变状态(事件字典)来判断加载完成。对于理解重叠加载的实现和设计 trade-off 很有帮助。