Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 17:58 同步状态:空闲 下次计划:2026-06-07 18:58

PR 列表

更多筛选
2026-03-30
缺陷修复 重要性 5.00 洞察度 5.00

修复Qwen图像编辑模型在非CUDA环境下的调制索引处理错误,支持NPU和SP分片。

建议工程团队精读此PR,特别是_modulate函数中的条件分支设计,展示了如何优雅处理不同硬件后端的kernel选择。关注CUDA检测、平台标识使用以及回退机制的实现细节。

#21682 [diffusion] CI: relax pr-test threshold

原始 PR · 作者 mickqian · 合并时间 2026-03-30 20:23

基础设施 重要性 3.00 洞察度 2.00

放松扩散模型PR测试性能阈值,调整CI基准以减少失败率。

这是一个简单的CI配置调整,不值得深入阅读。技术管理者可以关注此次变更背后的CI策略变化,即性能控制从PR测试转向nightly-ci,工程师可了解diffusion模块测试基准的更新。

#21648 [diffusion] feat: enhance overlay mechanism

原始 PR · 作者 mickqian · 合并时间 2026-03-30 19:45

功能 重要性 6.00 洞察度 6.00

增强扩散模型overlay机制,优化首次加载性能并支持本地缓存。

建议技术管理者关注此PR的设计决策,特别是overlay机制的集成方式和代码复用策略,以评估维护成本。工程师可精读`python/sglang/utils.py`和`cli/utils.py`的改动,理解如何优化检测逻辑和避免重复代码,值得借鉴其函数重构技巧。

缺陷修复 重要性 6.00 洞察度 5.00

修复Mistral Small 4模型因配置/权重格式不匹配导致的启动失败问题。

建议工程师精读此PR,特别是_is_mistral_native_format函数的修改,了解如何检测和处理模型格式不匹配,以及重构辅助函数的设计决策。对于负责模型加载或格式处理的开发者,此变更值得关注。

缺陷修复 重要性 6.00 洞察度 5.00

修复Mamba缓存内存泄漏问题,确保调度器在添加请求失败时正确释放资源。

建议技术管理者和scheduler模块开发者精读此PR,了解Mamba缓存泄漏的根因和修复策略,以及review中关于资源管理封装的设计讨论。关注_get_new_batch_prefill_raw函数的修改点,以掌握调度器中的资源释放时机。

功能 重要性 6.00 洞察度 5.00

为AMD GPU添加Qwen3.5 MXFP4模型支持,提升推理性能。

建议技术管理者精读此PR,关注融合模块映射的设计决策和性能与准确率的权衡;工程师可学习如何处理不同量化配置的兼容性问题,以及代码重构(如移除硬件检查)的最佳实践。

参与讨论