Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

lora 相关 PR

2026-04-18

#22169 [main] chore: add bias for base layer with lora

作者 gongyisheng · 合并时间 2026-04-18 17:07

缺陷修复 重要性 5.06 洞察度 5.00

为 LoRA 基类添加 bias 属性,修复权重同步时 Qwen2 模型输出错误。

lora bugfix run-ci

该 PR 值得精读,因为它揭示了 LoRA 包装层与权重同步机制间的微妙交互。关注 `BaseLayerWithLoRA` 如何通过属性反射确保 `named_parameters()` 完整性,这是支持动态权重更新的关键设计决策。

#22869 [diffusion] feat: introduce ltx-2-two-stage device manager

作者 mickqian · 合并时间 2026-04-18 11:04

功能 重要性 8.88 洞察度 6.00

引入LTX-2两阶段设备管理器,优化内存使用和LoRA切换性能。

diffusion lora feature performance

该PR值得精读,尤其是`LTX2TwoStageDeviceManager`类的实现,展示了针对多阶段模型的内存与性能优化设计。关注其模式自动选择策略(基于GPU内存)、CPU快照机制以及review中讨论的代码安全性改进点,这些对理解高性能推理系统的设备管理有较高参考价值。

2026-04-17

#22547 expose num_embeddings in VocabParallelEmbeddingWithLoRA

作者 opherlieber · 合并时间 2026-04-17 17:35

缺陷修复 重要性 4.38 洞察度 3.00

为LoRA嵌入层暴露num_embeddings属性,修复多模态模型加载失败问题。

lora bugfix run-ci

该PR值得快速浏览以理解LoRA包装类的属性暴露模式。虽然改动简单,但展示了在包装器类中保持与基础层接口一致性的重要设计原则。对于从事LoRA或多模态模块开发的工程师,可关注`VocabParallelEmbeddingWithLoRA`类中关于TP并行和input_scattered模式的注释,这些涉及更复杂的分布式计算约束。

2026-04-16

#22386 [lora] Speedup triton backend `sgemm` calls with better grid

作者 klshuster · 合并时间 2026-04-16 04:47

性能优化 重要性 8.22 洞察度 6.00

优化多LoRA解码Triton sgemm内核网格调度,通过适配器排序减少GPU块启动数。

lora performance run-ci sgl-kernel consistency

该PR值得精读,重点关注内核中`_resolve_token_positions`的设计和排序实现,以及性能权衡;建议结合基准测试评估实际收益,并注意测试覆盖的完整性。

2026-04-14

#22667 [diffusion] model: support Ltx 2.3 two stage ti2v

作者 mickqian · 合并时间 2026-04-14 22:10

功能 重要性 6.00 洞察度 5.00

支持 LTX-2.3 模型的两阶段文本到视频功能,扩展扩散模型能力。

diffusion lora feature test

该 PR 值得精读,尤其是对扩散模型开发者和维护者。重点关注设计决策,如两阶段去噪的清洁背景保留机制和扰动掩码处理,这些揭示了与官方实现对齐的技术权衡。

#22122 [lora][moe] Virtual experts for LoRA MoE

作者 klshuster · 合并时间 2026-04-14 05:19

功能 重要性 7.00 洞察度 6.00

为LoRA+MoE引入虚拟专家计算,通过扁平化适配器-专家组合提升多LoRA适配器推理性能。

lora moe performance feature run-ci

建议技术管理者和工程师精读 `virtual_experts.py` 内核实现和 `fused_moe_triton_kernels.py` 的修改,关注虚拟专家映射算法、split-K支持以及掩码加法设计,这些是性能优化的关键决策点。

2026-04-13
缺陷修复 重要性 6.00 洞察度 5.00

修复 LoRA 加载中的四个关键 bug,提升正确性和调试性。

bugfix lora run-ci

值得精读,特别是对于 LoRA 模块的开发者,可以学习严格加载验证的设计决策、模型感知目标模块解析的实现方式,以及处理部分 MoE 秩加载的底层优化技巧。

2026-04-12

#21858 [lora][moe] Decoupled LoRA MoE backend with Marlin support

作者 klshuster · 合并时间 2026-04-12 05:59

功能 重要性 7.00 洞察度 6.00

重构LoRA MoE runner为hook-based模式,并添加Marlin int4/int8后端支持。

lora moe refactor feature quant

该PR值得精读,重点关注hook-based设计决策如何平衡解耦与性能,以及Marlin后端集成中的量化处理。建议工程师review时检查维度计算逻辑,并考虑优化关键路径上的函数定义。