修复CI清理脚本无法杀死主服务器进程的问题,确保端口释放。
该PR变更简单直接,适合快速了解CI清理机制。值得关注review中提到的脚本一致性和CLI子命令覆盖问题,可作为后续改进参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复CI清理脚本无法杀死主服务器进程的问题,确保端口释放。
该PR变更简单直接,适合快速了解CI清理机制。值得关注review中提到的脚本一致性和CLI子命令覆盖问题,可作为后续改进参考。
放宽推测解码测试精度阈值,修复因边界值导致的CI不稳定问题。
该PR变更简单直接,适合快速浏览以了解CI测试修复的背景。值得关注的是review中关于测试严格性与稳定性权衡的讨论,以及PR作者对更深度精度问题的提及(已在单独问题中跟踪)。对于关注测试策略或推测解码模块的工程师,可进一步查看关联的精度问题。
添加推理令牌使用统计,修复当前字段始终为0的问题。
该 PR 值得精读,特别是设计决策:将逻辑放在输出处理器而非服务器进程以避免重新标记化复杂性,以及如何处理推测解码场景的统一令牌ID格式。
撤销对SM103 GPU的临时规避措施,恢复TRTLLM attention后端使用以提升性能。
推荐技术管理者和核心工程师精读此PR,关注注意力后端逻辑的简化设计,以及如何协调外部依赖修复进行代码回退的决策过程。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-04 17:16
将FlashInfer依赖版本从0.6.7升级至0.6.7.post2,确保各文件版本一致。
该PR变更简单,无需深入精读。对于技术管理者,可关注点在于: 1. **依赖管理策略**:SGLang使用自动化bot进行依赖升级,这体现了良好的基础设施实践。 2. **版本同步机制**:PR确保了Dockerfile、依赖声明和运行时检查的版本一致性,值得在类似项目中借鉴。 3. **后续验证**:建议关注CI测试结果,确认新版本无回归;若FlashInfer是核心依赖,可考虑在发布说明中提及此次更新。
添加FA4注意力后端支持推测解码,提升性能并降低内存占用。
值得精读,因为它展示了如何优雅地整合新特性到现有复杂管道中。关注设计决策:1. **代码重用策略**:通过参数化`fa_impl_ver`共享FA3和FA4实现,减少冗余。2. **测试方法**:测试类验证了功能正确性和性能指标(如平均推测接受长度),可借鉴用于其他性能优化PR。建议工程师学习这种模块化扩展方式。
优化多模态 ViT 编码,引入分块感知和 per-image 缓存以降低 GPU 内存和计算开销。
建议技术管理者和工程师精读此 PR,重点关注 _get_chunked_embedding_by_item 的分块感知设计、缓存策略变更以及设备转移优化,这些决策对多模态推理性能有重要影响。
添加LFM2-VL视觉语言模型支持,扩展SGLang多模态能力。
建议工程师精读此PR,以了解SGLang中多模态模型集成的模式,特别是混合缓存设计和处理器重构。关注`python/sglang/srt/models/lfm2_vl.py`中的投影器实现和`python/sglang/srt/configs/lfm2_vl.py`中的配置扩展,这些设计决策对后续模型支持有借鉴价值。
参与讨论