Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-20 11:11 同步状态：空闲下次计划：2026-04-20 12:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

已合并 973 · 已分析 970

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-04

#22103 Fix killall_sglang missing the main sglang serve process

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-04 18:43

缺陷修复重要性 3.00 洞察度 2.00

修复CI清理脚本无法杀死主服务器进程的问题，确保端口释放。

该PR变更简单直接，适合快速了解CI清理机制。值得关注review中提到的脚本一致性和CLI子命令覆盖问题，可作为后续改进参考。

bugfixrun-ci

#22100 Relax spec decoding accuracy threshold to fix flaky test

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-04 17:38

测试重要性 3.00 洞察度 4.00

放宽推测解码测试精度阈值，修复因边界值导致的CI不稳定问题。

该PR变更简单直接，适合快速浏览以了解CI测试修复的背景。值得关注的是review中关于测试严格性与稳定性权衡的讨论，以及PR作者对更深度精度问题的提及（已在单独问题中跟踪）。对于关注测试策略或推测解码模块的工程师，可进一步查看关联的精度问题。

speculative-decodingrun-citest

#15562 [Feature] Add Reasoning Tokens Usage

原始 PR · 作者 Muqi1029 · 合并时间 2026-04-04 17:18

功能重要性 6.00 洞察度 6.00

添加推理令牌使用统计，修复当前字段始终为0的问题。

该 PR 值得精读，特别是设计决策：将逻辑放在输出处理器而非服务器进程以避免重新标记化复杂性，以及如何处理推测解码场景的统一令牌ID格式。

featurerun-ciconsistency

#22098 Revert "[Bugfix] Temporarily skip TRTLLM attention on (G)B300 (SM103) to avoid high-concurrency hang"

原始 PR · 作者 Fridge003 · 合并时间 2026-04-04 17:17

重构重要性 5.00 洞察度 4.00

撤销对SM103 GPU的临时规避措施，恢复TRTLLM attention后端使用以提升性能。

推荐技术管理者和核心工程师精读此PR，关注注意力后端逻辑的简化设计，以及如何协调外部依赖修复进行代码回退的决策过程。

refactorperformancerun-ci

#22097 chore: bump flashinfer version to 0.6.7.post2

原始 PR · 作者 sglang-bot · 合并时间 2026-04-04 17:16

基础设施重要性 2.00 洞察度 1.00

将FlashInfer依赖版本从0.6.7升级至0.6.7.post2，确保各文件版本一致。

该PR变更简单，无需深入精读。对于技术管理者，可关注点在于： 1. **依赖管理策略**：SGLang使用自动化bot进行依赖升级，这体现了良好的基础设施实践。 2. **版本同步机制**：PR确保了Dockerfile、依赖声明和运行时检查的版本一致性，值得在类似项目中借鉴。 3. **后续验证**：建议关注CI测试结果，确认新版本无回归；若FlashInfer是核心依赖，可考虑在发布说明中提及此次更新。

dependenciesrun-ci

#21080 [Speculative Decoding] Add FA4-based Spec Support

原始 PR · 作者 narutolhy · 合并时间 2026-04-04 17:09

功能重要性 6.00 洞察度 6.00

添加FA4注意力后端支持推测解码，提升性能并降低内存占用。

值得精读，因为它展示了如何优雅地整合新特性到现有复杂管道中。关注设计决策：1. **代码重用策略**：通过参数化`fa_impl_ver`共享FA3和FA4实现，减少冗余。2. **测试方法**：测试类验证了功能正确性和性能指标（如平均推测接受长度），可借鉴用于其他性能优化PR。建议工程师学习这种模块化扩展方式。

documentationrun-cijit-kernel

#22038 [VLM] Chunk-aware ViT encoding with per-image cache and lazy device transfer

原始 PR · 作者 yhyang201 · 合并时间 2026-04-04 16:55

性能优化重要性 7.00 洞察度 7.00

优化多模态 ViT 编码，引入分块感知和 per-image 缓存以降低 GPU 内存和计算开销。

建议技术管理者和工程师精读此 PR，重点关注 _get_chunked_embedding_by_item 的分块感知设计、缓存策略变更以及设备转移优化，这些决策对多模态推理性能有重要影响。

multimodalperformancerefactor

#21230 Add LFM2-VL (Liquid Foundation Model 2 Vision-Language) support

原始 PR · 作者 tugot17 · 合并时间 2026-04-04 16:36

功能重要性 6.00 洞察度 6.00

添加LFM2-VL视觉语言模型支持，扩展SGLang多模态能力。

建议工程师精读此PR，以了解SGLang中多模态模型集成的模式，特别是混合缓存设计和处理器重构。关注`python/sglang/srt/models/lfm2_vl.py`中的投影器实现和`python/sglang/srt/configs/lfm2_vl.py`中的配置扩展，这些设计决策对后续模型支持有借鉴价值。

multimodalfeaturerun-ci

第 62 / 122 页 · 共 973 条

上一页 1 … 60 61 62 63 64 … 122 下一页

支持 Prhub ♥

sgl-project/sglang

PR 列表

#22103 Fix killall_sglang missing the main sglang serve process

#22100 Relax spec decoding accuracy threshold to fix flaky test

#15562 [Feature] Add Reasoning Tokens Usage

#22098 Revert "[Bugfix] Temporarily skip TRTLLM attention on (G)B300 (SM103) to avoid high-concurrency hang"

#22097 chore: bump flashinfer version to 0.6.7.post2

#21080 [Speculative Decoding] Add FA4-based Spec Support

#22038 [VLM] Chunk-aware ViT encoding with per-image cache and lazy device transfer

#21230 Add LFM2-VL (Liquid Foundation Model 2 Vision-Language) support

参与讨论