#21347 [Bugfix] Fix PP tied embeddings weight loading for qwen3.5 4B dense model
原始 PR · 作者 edwingao28 · 合并时间 2026-04-01 14:51
修复 Qwen3.5 4B dense 模型在 PP=2 时权重加载错误导致的输出乱码问题。
该 PR 值得精读,特别是关注模型权重加载机制和 PP 下的初始化设计决策,有助于理解大型语言模型在分布式环境中的权重处理模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 edwingao28 · 合并时间 2026-04-01 14:51
修复 Qwen3.5 4B dense 模型在 PP=2 时权重加载错误导致的输出乱码问题。
该 PR 值得精读,特别是关注模型权重加载机制和 PP 下的初始化设计决策,有助于理解大型语言模型在分布式环境中的权重处理模式。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-01 14:34
融合QK-norm、3D mRoPE和KV缓存写入,优化AMD平台上Qwen3-VL解码性能。
建议精读此PR以了解融合内核的设计和实现细节,关注forward_prepare_aiter_fused_mrope函数的逻辑、条件检测的健壮性,以及如何平衡性能与代码维护性。对于涉及AMD平台优化或内核融合的开发者,此PR提供有价值的案例。
修复LoRA适配器加载时虚假添加令牌导致的验证错误。
建议工程师精读此PR以理解LoRA配置加载机制和添加令牌处理方式,特别关注`LoRAConfig`的初始化逻辑和过滤设计决策,这对于维护和扩展LoRA功能有参考价值。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-01 14:29
将Blackwell GPU默认多模态注意力后端从triton_attn改为fa4以提升性能。
该PR值得精读,重点关注其基于基准测试的性能优化策略和平台特定风险规避设计。对于处理多模态或GPU加速的工程师,可学习其设备能力检测和后端选择模式。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-01 14:29
恢复重复惩罚器支持,解决GLM-V模型响应重复问题。
建议仔细阅读此PR,特别是惩罚器实现和推测解码集成部分,关注review中提出的问题是否已解决,以及乘性惩罚与加性惩罚分离的设计决策。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-01 14:15
扩展 LoRA 支持到 Qwen3-VL-30B-A3B-Instruct 模型的 MoE 组件和嵌入层。
建议精读此 PR,关注 LoRA 模式扩展的设计决策和测试准确性验证方法。同时,注意未解决的安全和准确性风险,需在后续迭代中处理。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-01 12:18
升级flashinfer依赖至0.6.7版本,修复多项issue并同步外部变更。
建议团队仔细审查此PR,特别是测试文件的修改是否合理(如禁用测试和调整容差),并关注相关issue和PR(如#21452和#21625)以确保兼容性。对于工程师,值得关注engine.py中的版本检查逻辑和依赖升级的潜在breaking changes,以预防生产环境问题。
融合KDA预填充流水线中的三个内核,减少内核启动开销和中间内存使用。
对于关注内核优化和性能提升的工程师,此PR值得精读,特别是融合策略和token-parallel设计。建议重点审查chunk_intra.py中的内核实现假设,并注意review中未解决的循环依赖问题。
参与讨论