Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#21347 [Bugfix] Fix PP tied embeddings weight loading for qwen3.5 4B dense model

原始 PR · 作者 edwingao28 · 合并时间 2026-04-01 14:51

缺陷修复重要性 6.00 洞察度 5.00

修复 Qwen3.5 4B dense 模型在 PP=2 时权重加载错误导致的输出乱码问题。

该 PR 值得精读，特别是关注模型权重加载机制和 PP 下的初始化设计决策，有助于理解大型语言模型在分布式环境中的权重处理模式。

bugfixconsistencytest

#21458 [AMD] Optimize Qwen3-VL decode - fuse QK-norm + 3D mRoPE + KV cache write

原始 PR · 作者 yctseng0211 · 合并时间 2026-04-01 14:34

性能优化重要性 6.00 洞察度 7.00

融合QK-norm、3D mRoPE和KV缓存写入，优化AMD平台上Qwen3-VL解码性能。

建议精读此PR以了解融合内核的设计和实现细节，关注forward_prepare_aiter_fused_mrope函数的逻辑、条件检测的健壮性，以及如何平衡性能与代码维护性。对于涉及AMD平台优化或内核融合的开发者，此PR提供有价值的案例。

performanceamdjit-kernel

#17905 Fix added tokens config with sensible filter

原始 PR · 作者 sbeurnier · 合并时间 2026-04-01 14:32

缺陷修复重要性 6.00 洞察度 5.00

修复LoRA适配器加载时虚假添加令牌导致的验证错误。

建议工程师精读此PR以理解LoRA配置加载机制和添加令牌处理方式，特别关注`LoRAConfig`的初始化逻辑和过滤设计决策，这对于维护和扩展LoRA功能有参考价值。

lorabugfixtest

#21595 Change default mm-attention backend from triton_attn to fa4

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-01 14:29

性能优化重要性 6.00 洞察度 6.00

将Blackwell GPU默认多模态注意力后端从triton_attn改为fa4以提升性能。

该PR值得精读，重点关注其基于基准测试的性能优化策略和平台特定风险规避设计。对于处理多模态或GPU加速的工程师，可学习其设备能力检测和后端选择模式。

performancemultimodaljit-kernel

#21258 [Feature Restoration] repetition_penalty is essential for GLM-V models

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-01 14:29

功能重要性 7.00 洞察度 6.00

恢复重复惩罚器支持，解决GLM-V模型响应重复问题。

建议仔细阅读此PR，特别是惩罚器实现和推测解码集成部分，关注review中提出的问题是否已解决，以及乘性惩罚与加性惩罚分离的设计决策。

featurespeculative-decodingmultimodal

#21469 [3/n] lora moe - Support Qwen3-VL-30B-A3B-Instruct

原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-01 14:15

功能重要性 5.00 洞察度 6.00

扩展 LoRA 支持到 Qwen3-VL-30B-A3B-Instruct 模型的 MoE 组件和嵌入层。

建议精读此 PR，关注 LoRA 模式扩展的设计决策和测试准确性验证方法。同时，注意未解决的安全和准确性风险，需在后续迭代中处理。

loratestfeature

#21422 chore: bump flashinfer version to 0.6.7

原始 PR · 作者 sglang-bot · 合并时间 2026-04-01 12:18

基础设施重要性 6.00 洞察度 5.00

升级flashinfer依赖至0.6.7版本，修复多项issue并同步外部变更。

建议团队仔细审查此PR，特别是测试文件的修改是否合理（如禁用测试和调整容差），并关注相关issue和PR（如#21452和#21625）以确保兼容性。对于工程师，值得关注engine.py中的版本检查逻辑和依赖升级的潜在breaking changes，以预防生产环境问题。

bugfixtestjit-kernel

#21604 [KDA] Fuse scaled_dot_kkt + solve_tril + recompute_w_u for KDA

原始 PR · 作者 yuan-luo · 合并时间 2026-04-01 11:57

性能优化重要性 7.00 洞察度 6.00

融合KDA预填充流水线中的三个内核，减少内核启动开销和中间内存使用。

对于关注内核优化和性能提升的工程师，此PR值得精读，特别是融合策略和token-parallel设计。建议重点审查chunk_intra.py中的内核实现假设，并注意review中未解决的循环依赖问题。

performancerefactorjit-kernel

第 314 / 357 页 · 共 2850 条

上一页 1 … 312 313 314 315 316 … 357 下一页