Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-20 03:35 同步状态:空闲 下次计划:2026-04-20 04:35

PR 列表

已合并 963 · 已分析 963
更多筛选
2026-04-08
性能优化 重要性 6.00 洞察度 6.00

优化HiSparse解码备份调度,通过异步备份减少CPU气泡,提升TPOT性能5%。

建议技术管理者和工程师精读此PR,重点关注流调度设计如何减少CPU气泡,以及review中讨论的Tensor Parallelism支持和性能优化点,以借鉴异步备份模式。

缺陷修复 重要性 5.00 洞察度 4.00

修复NPU后端MLAPO融合内核在非MLA模型下错误禁用KV缓存保存的问题。

该PR值得NPU后端开发者精读,虽然改动小但揭示了MLAPO与模型类型耦合的设计决策。关注self.use_mla属性的使用方式,以及未来是否应重构重复逻辑。

#21700 Support HTTP2 server

原始 PR · 作者 ispobock · 合并时间 2026-04-08 00:42

功能 重要性 6.00 洞察度 6.00

通过 Granian 支持 HTTP/2 服务器,提升高并发客户端吞吐量。

建议技术管理者和后端工程师精读此 PR,重点关注如何优雅地集成第三方 ASGI 服务器、处理多进程初始化的设计决策,以及命令行参数验证的逻辑,这些对类似基础设施改进有借鉴价值。

缺陷修复 重要性 4.00 洞察度 3.00

修复MambaRadixCache v1 (no_buffer)模式下page_size>1导致的崩溃,添加自动校正逻辑。

该PR值得快速浏览,主要关注点: 1. 理解MambaRadixCache不同模式(no_buffer vs extra_buffer)的配置约束 2. 注意gemini-code-assist[bot]提出的覆盖问题,这可能需要在后续PR中解决 3. 作为配置验证模式的一个案例,展示了如何在server_args中处理不兼容参数

性能优化 重要性 6.00 洞察度 6.00

优化Mamba状态跟踪,消除D2H操作,提升TTFT性能6%。

建议技术管理者和工程师精读此PR,学习如何通过预计算索引优化D2H操作;关注`init_forward_metadata`中的设计决策,以及review中关于性能权衡的讨论。

2026-04-07
功能 重要性 7.00 洞察度 5.00

为NIXL解耦后端添加Mamba状态切片传输支持,使混合Mamba模型在异构TP下正常运行。

该PR值得技术管理者关注,因为它扩展了NIXL后端的异构TP支持,是解耦推理演进的重要步骤。工程师可精读`_send_mamba_state_slice()`函数以学习状态切片和RDMA传输的设计模式,但需注意参数传递的可读性改进空间。

#22251 [diffusion] CI: fix consistency check

原始 PR · 作者 mickqian · 合并时间 2026-04-07 23:43

测试 重要性 4.00 洞察度 3.00

修复扩散模型CI一致性检查,移除不稳定测试用例并调整阈值配置。

建议精读以理解扩散模型测试的稳定性处理策略,关注阈值管理和测试用例选择的设计决策,以及CI环境优化的实践。

#22267 Move ring test to nightly

原始 PR · 作者 ispobock · 合并时间 2026-04-07 21:56

基础设施 重要性 2.00 洞察度 1.00

将Ring-2.5-1T模型测试从常规CI移至夜间测试套件,并添加软看门狗超时参数。

此PR变更简单,无需精读。值得关注的是review建议未被采纳,软看门狗配置可能无效,但鉴于这是测试配置调整,风险可控。建议后续如有类似测试迁移,可考虑采纳review建议以完善超时处理。

参与讨论