Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选
2026-05-27

#25971 [CPU Doc]Add Xeon CPU info in Qwen3 Cookbook

原始 PR · 作者 ZailiWang · 合并时间 2026-05-27 03:14

文档 重要性 4.83 洞察度 5.00

为 Qwen3 Cookbook 添加 Xeon CPU 支持

作为文档更新,值得快速查阅以了解 Xeon 支持的范围。但建议关注 TP 值和 FP8 设置的后续验证,如有实际测试结果应补充更新。该 PR 展示了在文档中为特定硬件平台添加参数配置的典型做法。

#26414 chore: bump sgl-kernel version to 0.4.3

原始 PR · 作者 sglang-bot · 合并时间 2026-05-27 03:10

基础设施 重要性 3.87 洞察度 1.00

sgl-kernel 版本从 0.4.2.post2 升级到 0.4.3

建议合并。作为常规的依赖升级,自动化流程降低了人工操作风险。

#26132 Sgl flashmla

原始 PR · 作者 zcnrex · 合并时间 2026-05-27 03:00

功能 重要性 7.94 洞察度 6.00

将FlashMLA集成到sgl-kernel并移除外部依赖

建议阅读该PR,特别是`flash_mla.py`中调度元数据类的设计模式和`flash_mla_with_kvcache`中的类型分派逻辑,这是sgl-kernel集成外部核库的一个经典示例。同时也需关注后续配套的测试PR以确保覆盖。

重构 重要性 8.07 洞察度 6.00

为 EAGLE/MTP 添加异步断言探测并清理 NaN 检测路径

建议 SRT speculative 路径维护者和使用 DeepSeek 系列模型用户关注本 PR 的防御性增强。环境变量合并和废弃标志移除的设计值得参考,异步断言的使用模式可在类似场景复用。若频繁遇到 flaky 测试或非法地址问题,建议在 CI 中启用 `SGLANG_ENABLE_ASYNC_ASSERT` 环境变量。

缺陷修复 重要性 6.73 洞察度 6.00

修复 flashinfer_cutlass MoE 中间大小非16倍数时崩溃

值得精读。该 PR 展示了如何处理硬件/内核对齐约束的经典模式:后置 padding vs 预分配。讨论中的 API 设计权衡(`server_args` vs 量化方法内解析)对团队有参考价值。

2026-05-26
功能 重要性 9.27 洞察度 7.00

支持 UnifiedRadixCache 的 L3 层级存储后端框架

建议重点关注 `unified_radix_cache.py` 中的预取和备份机制设计,以及 `hybrid_cache_controller.py` 的配置解析方式。这两个文件是 L3 存储的核心骨架。同时注意 host lock 的组件实现一致性,特别是后续 SWAComponent 的支持。测试用例 `test_unified_radix_cache_kl_hicache_part2.py` 是 Mamba 混合模型集成的良好参考。

#26299 [PD] Fix top logprobs crash in prefill path

原始 PR · 作者 junliu-mde · 合并时间 2026-05-26 22:01

缺陷修复 重要性 6.01 洞察度 3.00

修复 PD 模式下 top_logprobs 崩溃问题

值得合入,修复逻辑清晰,测试覆盖充分。开发者在后续涉及 prefill 结果处理时应注意与 batch_result_processor 中的转换逻辑保持对称。

参与讨论