增强Ngram推测解码的多SAM支持,修复错误处理并添加全局token预算管理。
推荐精读此PR以学习推测解码中多SAM管理的设计模式,特别是预算实施、错误处理和并发边界条件。关注cpp_ngram/ngram_corpus.py中的预算跟踪逻辑和tokenizer_communicator_mixin.py中的结果聚合方法。
SGLang is a high-performance serving framework for large language models and multimodal models.
增强Ngram推测解码的多SAM支持,修复错误处理并添加全局token预算管理。
推荐精读此PR以学习推测解码中多SAM管理的设计模式,特别是预算实施、错误处理和并发边界条件。关注cpp_ngram/ngram_corpus.py中的预算跟踪逻辑和tokenizer_communicator_mixin.py中的结果聚合方法。
使用UV工具加速NPU CI环境中的pip安装,安装时间从4分钟缩短至1分40秒。
对于技术管理者,此PR展示了CI基础设施优化的一个实例,值得关注以提高团队效率;对于工程师,除非直接维护NPU CI脚本,否则无需精读,但可借鉴uv工具的集成方法。
为扩散模型RL后训练新增模块化Rollout Log-Prob引擎,支持SDE/CPS/ODE策略。
建议技术管理者和扩散模型开发者精读此PR,关注其模块化设计、混合模式集成以及序列并行兼容性的实现细节,为类似功能扩展提供参考。
为check-stage-health CI动作添加lint检查失败快速失败机制,提升CI效率。
该PR值得CI/基础设施维护者精读,特别是关注跨工作流状态查询的实现方式。虽然变更规模较小,但展示了在GitHub Actions中实现跨工作流协调的实用模式。建议关注checks.listForRef API的使用细节和错误处理机制。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-09 08:04
新增GLM-5.1 FP8夜间测试并更新Qwen3.5模型配置,扩展大模型测试覆盖。
该PR值得关注,特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计,以及DP-attention在Qwen3.5测试中的集成方式,这反映了项目对多GPU并行策略的测试演进。同时,注意提交历史中的回退操作,了解模型命名一致性的重要性。
原始 PR · 作者 alisonshao · 合并时间 2026-04-09 07:36
将stage-c-test-4-gpu-b200 CI测试分区从4个增加到5个,解决超时问题。
该PR变更简单直接,无需深入精读。对于关注CI优化或Blackwell测试稳定性的工程师,可参考此PR了解如何通过调整分区策略应对测试时间增长。
原始 PR · 作者 alisonshao · 合并时间 2026-04-09 07:22
为贡献者alexnails添加CI权限,修复/rerun-stage命令静默失败问题。
该PR无需精读,适合快速浏览以了解CI权限管理机制。关注点:CI_PERMISSIONS.json的结构和权限字段含义,可作为未来类似权限更新的参考。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-09 07:13
修复 release-docker-runtime CI 工作流,使用 job outputs 替代 artifact 上传下载,解决 Docker tag 缺失问题。
对于一般工程师,此 PR 变更简单,无需深入精读,但可作为了解 GitHub Actions job outputs 最佳实践的参考;对于 CI 维护者,值得关注以确保类似工作流的一致修复和配置一致性。
参与讨论