Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 06:05 同步状态:空闲 下次计划:2026-04-19 07:05

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-26

#18032 [NPU] Support Hybrid KV Cache for Ascend backend

作者 gjsheu · 合并时间 2026-03-26 11:27

功能 重要性 7.00 洞察度 6.00

为Ascend NPU后端实现Hybrid KV Cache支持,优化内存效率和推理吞吐量。

该PR值得精读,因为它展示了如何为特定硬件后端适配高级优化特性,涉及内存管理、注意力机制和硬件兼容性的关键设计决策。建议重点关注ascend_backend.py中SWA块表的集成逻辑和条件判断的处理方式,以及swa_memory_pool.py中设备选择机制的实现。

功能 重要性 6.00 洞察度 5.00

在调度器中为gRPC预处理路径计算M-RoPE位置,修复多模态请求的缺失计算。

建议开发者和架构师精读此PR,关注如何在调度器中优雅地处理多模态处理器的加载和计算逻辑。特别值得学习的是错误降级机制和模块化设计,以确保系统健壮性。

#21262 Fix customized_info offset truncation

作者 aurickq · 合并时间 2026-03-26 10:57

缺陷修复 重要性 3.00 洞察度 2.00

修复 customized_info 在输出截断时的切片偏移错误,确保数据一致性。

该 PR 变更简单直接,工程师可快速浏览以了解切片修复逻辑,无需深度解析。对于管理者,关注点在于确保此 bugfix 被正确测试和部署。

#21348 Fix MxInt4 MoE returning wrong output variable

作者 sshleifer · 合并时间 2026-03-26 10:57

缺陷修复 重要性 4.00 洞察度 3.00

修复 MxInt4 MoE 中 trtllm_mxint4_block_scale_moe 函数返回错误输出变量的问题。

该 PR 变更简单直接,适用于快速了解输出缓冲区处理的常见错误模式。对于涉及量化或 MoE 模块的开发者,值得关注以确保类似变量赋值问题被避免。

缺陷修复 重要性 5.00 洞察度 6.00

修复 CUDA wheel 打包中文件名与内部元数据不一致的问题,确保 pip 安装正常。

对于负责构建和打包的工程师,此 PR 值得精读,以了解如何正确处理 wheel 元数据对齐问题,关注点包括使用 wheel unpack/pack 的规范方法、错误处理和 robustness 改进。对于其他开发者,可以快速浏览以理解修复的动机和范围。

参与讨论