Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-14 16:51 同步状态：空闲下次计划：2026-06-14 17:51

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#21620 fix: Mistral Small 4 fails to start due to config/weight format mismatch

原始 PR · 作者 LiYomi · 合并时间 2026-03-30 16:57

缺陷修复重要性 6.00 洞察度 5.00

修复Mistral Small 4模型因配置/权重格式不匹配导致的启动失败问题。

建议工程师精读此PR，特别是_is_mistral_native_format函数的修改，了解如何检测和处理模型格式不匹配，以及重构辅助函数的设计决策。对于负责模型加载或格式处理的开发者，此变更值得关注。

bugfixtestrefactor

#21404 fix mamba cache leak when adder fails to add a matched req.

原始 PR · 作者 strgrb · 合并时间 2026-03-30 16:45

缺陷修复重要性 6.00 洞察度 5.00

修复Mamba缓存内存泄漏问题，确保调度器在添加请求失败时正确释放资源。

建议技术管理者和scheduler模块开发者精读此PR，了解Mamba缓存泄漏的根因和修复策略，以及review中关于资源管理封装的设计讨论。关注_get_new_batch_prefill_raw函数的修改点，以掌握调度器中的资源释放时机。

bugfixperformancedebugging

#21662 [Fix] Fix weight_loader property assignment for qwen3-next FP8 models

原始 PR · 作者 Fridge003 · 合并时间 2026-03-30 16:35

缺陷修复重要性 5.00 洞察度 4.00

修复Qwen3-Next FP8模型权重加载时的属性赋值错误。

建议快速浏览以了解权重加载机制的细微调整，重点关注_override_weight_loader函数的设计，学习如何处理属性与只读属性的差异。

bugfixquanttest

#21234 [AMD] Support AMD MXFP4 Qwen3.5-397B-A17B model

原始 PR · 作者 hubertlu-tw · 合并时间 2026-03-30 16:14

功能重要性 6.00 洞察度 5.00

为AMD GPU添加Qwen3.5 MXFP4模型支持，提升推理性能。

建议技术管理者精读此PR，关注融合模块映射的设计决策和性能与准确率的权衡；工程师可学习如何处理不同量化配置的兼容性问题，以及代码重构（如移除硬件检查）的最佳实践。

amdquantfeature

#21468 [NPU] Update DeepSeek-V3.2 model deployment instructions in documentation

原始 PR · 作者 MichelleWu351 · 合并时间 2026-03-30 15:51

文档重要性 4.00 洞察度 2.00

更新 DeepSeek-V3.2 模型在 Ascend NPU 上的部署最佳实践文档。

建议团队工程师在部署 DeepSeek-V3.2 模型到 Ascend NPU 时参考此文档更新，关注配置参数变化；但 PR 不涉及代码逻辑，无需深度技术分析。

documentationnpudeepseek

#21315 [AMD] Fused rope kv store

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05

性能优化重要性 7.00 洞察度 6.00

针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。

建议精读此 PR，关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑（如 `enable_fused_set_kv_buffer` 检查），以及 HIP 路径集成方式，这些对于理解性能优化和硬件特定支持有重要参考价值。

performancejit-kernelfeature

#14385 [CPU] Implement MXFP4 Gemm kernels for intel AMX to support GPT OSS series.

原始 PR · 作者 mingfeima · 合并时间 2026-03-30 14:44

功能重要性 6.00 洞察度 6.00

为Intel AMX实现MXFP4 GEMM内核，以支持GPT OSS系列模型推理。

建议技术管理者精读gemm_fp8.cpp中的AVX512实现和vec.h中的MXFP4转换逻辑，以了解低级优化技巧。工程师可关注tinygemm接口设计，评估其复用价值。

featurequantperformance

#13121 [CPU] add kernel apply_rotary_pos_emb_cpu for Qwen3-VL and Qwen3-Omni

原始 PR · 作者 blzheng · 合并时间 2026-03-30 14:43

功能重要性 6.00 洞察度 5.00

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

建议精读此 PR，特别是核函数实现中的向量化技巧和并行化策略，对于优化 CPU 推理性能有借鉴价值。关注 `rope.cpp` 中的算法设计和 `utils.py` 中的条件调度逻辑。

featureperformancejit-kernel

第 367 / 400 页 · 共 3196 条

上一页 1 … 365 366 367 368 369 … 400 下一页