Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-14 16:51 同步状态:空闲 下次计划:2026-06-14 17:51

PR 列表

更多筛选
2026-03-30
缺陷修复 重要性 6.00 洞察度 5.00

修复Mistral Small 4模型因配置/权重格式不匹配导致的启动失败问题。

建议工程师精读此PR,特别是_is_mistral_native_format函数的修改,了解如何检测和处理模型格式不匹配,以及重构辅助函数的设计决策。对于负责模型加载或格式处理的开发者,此变更值得关注。

缺陷修复 重要性 6.00 洞察度 5.00

修复Mamba缓存内存泄漏问题,确保调度器在添加请求失败时正确释放资源。

建议技术管理者和scheduler模块开发者精读此PR,了解Mamba缓存泄漏的根因和修复策略,以及review中关于资源管理封装的设计讨论。关注_get_new_batch_prefill_raw函数的修改点,以掌握调度器中的资源释放时机。

功能 重要性 6.00 洞察度 5.00

为AMD GPU添加Qwen3.5 MXFP4模型支持,提升推理性能。

建议技术管理者精读此PR,关注融合模块映射的设计决策和性能与准确率的权衡;工程师可学习如何处理不同量化配置的兼容性问题,以及代码重构(如移除硬件检查)的最佳实践。

#21315 [AMD] Fused rope kv store

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05

性能优化 重要性 7.00 洞察度 6.00

针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。

建议精读此 PR,关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑(如 `enable_fused_set_kv_buffer` 检查),以及 HIP 路径集成方式,这些对于理解性能优化和硬件特定支持有重要参考价值。

功能 重要性 6.00 洞察度 5.00

为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。

建议精读此 PR,特别是核函数实现中的向量化技巧和并行化策略,对于优化 CPU 推理性能有借鉴价值。关注 `rope.cpp` 中的算法设计和 `utils.py` 中的条件调度逻辑。

参与讨论