Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 13:29 同步状态:空闲 下次计划:2026-04-19 14:29

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-29

#21100 [NPU] Update quantization&CI documentation

作者 OrangeRedeng · 合并时间 2026-03-29 02:42

文档 重要性 4.00 洞察度 3.00

更新Ascend NPU的量化和CI文档,优化用户指南和开发流程。

建议技术管理者关注此PR以了解Ascend NPU平台的最新支持情况,工程师可参考更新后的文档进行量化相关开发。值得精读`ascend_npu_quantization.md`以获取详细支持矩阵,并注意review中讨论的文档优化点。

功能 重要性 7.00 洞察度 6.00

为Whisper模型启用CUDA图支持和时间戳功能,实现36%吞吐量提升。

该PR值得精读,特别是对于理解如何在编码器-解码器模型中集成RadixAttention以启用CUDA图支持,以及时间戳功能的实现细节。建议关注`whisper.py`中的交叉注意力替换和`cuda_graph_runner.py`中的捕获修复,这些设计决策对类似优化有参考价值。

2026-03-28
性能优化 重要性 7.39 洞察度 6.00

优化共享内存指针类以支持多次pickle并推迟解包,显著降低多图像VLM推理的TTFT。

建议技术管理者和工程师精读此PR,重点关注 `ShmPointerMMData` 类的设计权衡,如序列化简化、内存管理策略(延迟解包与显式materialize),以及调度器中解包时机调整对分布式通信的优化效果,这些决策对高性能推理系统具有借鉴价值。

#21608 [CI] hot-fix ci lint

作者 yuan-luo · 合并时间 2026-03-28 21:32

缺陷修复 重要性 3.00 洞察度 2.00

修复由 PR 21534 引入的 CI lint 失败,将 AccuracyTestParams 格式化为单行以通过 pre-commit 钩子。

该 PR 不值得精读,变更简单机械。关注点在于 CI 流程中的格式化工具交互和团队对代码风格的权衡决策。

缺陷修复 重要性 6.00 洞察度 5.00

修复 Flux2-Klein 模型提示词标记化长度从 77 改为 512,并添加回归测试。

推荐精读以了解如何修复配置继承导致的 bug。关注 tokenize_prompt 方法中硬编码 max_length 的决策,以及如何通过添加 text_encoder_extra_args 字段避免类似问题,对扩散模型开发有参考价值。

#21536 [Clean] Remove deprecated environs

作者 Fridge003 · 合并时间 2026-03-28 15:35

重构 重要性 3.00 洞察度 3.00

移除已弃用的FP8/FP4 GEMM环境变量,使用CLI标志替代配置。

对于技术管理者和工程师,建议关注向后兼容性迁移,确保用户文档已更新。该PR值得简要阅读以了解清理策略和配置演进方向,但无需深入分析复杂代码逻辑。

参与讨论