移除Ngram推测解码的窗口参数,改为匹配所有后缀以简化配置和提升匹配效率。
建议技术管理者和工程师精读此PR,重点关注C++中Trie::match函数的修改和默认值讨论,这些设计决策有助于理解Ngram重构方向。对于使用Ngram功能的用户,应查看更新后的文档以避免配置问题。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除Ngram推测解码的窗口参数,改为匹配所有后缀以简化配置和提升匹配效率。
建议技术管理者和工程师精读此PR,重点关注C++中Trie::match函数的修改和默认值讨论,这些设计决策有助于理解Ngram重构方向。对于使用Ngram功能的用户,应查看更新后的文档以避免配置问题。
修复流式请求验证错误返回HTTP 200而非400的问题,确保与vLLM行为一致。
该PR值得精读,特别是对于处理OpenAI兼容API和流式响应的开发者。关注点包括:预启动生成器的设计决策、`stream_started`标志的使用以避免错误吞没,以及如何平衡错误处理与流式响应性能。
修复Qwen25模型流式多工具调用解析失败问题。
建议工程师精读此PR,关注解析逻辑中的错误处理模式和回退机制设计,这对于处理复杂格式的流式解析有参考价值,特别是涉及多工具调用场景时。
融合温度缩放与softmax采样内核,减少解码延迟。
建议工程师精读`fused_sampling.py`以学习Triton内核设计和自动调优策略,关注条件阈值选择和预热机制。性能优化显著,适用于性能敏感场景,值得作为内核优化案例参考。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-02 12:41
在Trivy安全扫描中跳过Go标准库和NVIDIA工具目录,消除约500个不可修复的误报警报。
该PR变更简单直接,无需深入技术分析。建议关注点:1) 了解Trivy skip-dirs配置的使用场景;2) 注意基础镜像依赖带来的安全扫描噪音问题;3) 可作为类似CI配置优化的参考案例。
将多线程权重加载默认值从False改为True,提升模型冷启动性能。
该PR变更简单但影响默认行为,建议团队关注CI测试结果,确保无回归。对于深入理解模型加载优化,可结合Issue #12529中的其他改进方案(如Runai streamer集成)一起阅读。
为HiCache文件后端添加流水线并行(PP)键支持,扩展存储配置命名空间。
建议关注此PR作为HiCache支持流水线并行的第一步。虽然变更本身简单,但需要理解其在整个兼容性解决方案中的定位。重点关注配置后缀生成逻辑的变化,以及后续PR如何在此基础上构建完整功能。
将所有调用者从弃用的/get_server_info迁移到新的/server_info端点,清理API表面。
建议开发团队快速浏览此PR,关注API清理的最佳实践和弃用管理。对于新贡献者,理解如何管理端点弃用是有价值的学习案例。变更直白,无需深度技术分析,但值得参考以确保未来类似重构的顺利进行。
参与讨论