#22900 trim_overshoot: cap swa_evicted_seqlen + unit test
作者 hnyls2002 · 合并时间 2026-04-16 06:05
修复流式会话中Spec V2解码超限时SWA(滑动窗口注意力)内存泄漏问题。
该PR值得精读,尤其是关注 `_trim_overshoot` 和 `_free_tail` 方法如何协同维护KV和SWA状态的一致性。设计决策体现了对称性修复的重要性,对于处理流式会话中的内存管理有借鉴意义。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 hnyls2002 · 合并时间 2026-04-16 06:05
修复流式会话中Spec V2解码超限时SWA(滑动窗口注意力)内存泄漏问题。
该PR值得精读,尤其是关注 `_trim_overshoot` 和 `_free_tail` 方法如何协同维护KV和SWA状态的一致性。设计决策体现了对称性修复的重要性,对于处理流式会话中的内存管理有借鉴意义。
作者 ishandhanani · 合并时间 2026-04-16 06:02
澄清CI日志分析器对不兼容标志组合的issue提报规则,确保向srt-slurm仓库报告。
建议CI维护者和基础设施工程师精读此PR,重点关注 `log_analysis_prompt.md` 中的架构说明和失败分类逻辑,这对于理解srt-slurm与sglang的责任边界至关重要。同时,关注 `analyze_logs_with_modal.py` 的控制流调整,以确保自动化规则的正确实施。
作者 xyuzh · 合并时间 2026-04-16 06:00
为 RayEngine 添加数据并行和 DP 注意力支持,扩展多 GPU 推理能力。
建议精读 `RayDataParallelController` 类的实现,了解如何将 Ray actors 集成到现有数据并行框架中,并覆盖基类方法。同时关注提交历史中的调整点,如返回类型修复和安全绑定,这些是重要的设计决策和陷阱规避。
作者 sundar24295s · 合并时间 2026-04-16 05:58
为评分API添加返回pooled隐藏状态功能,支持序列分类和奖励模型。
此PR值得精读,特别关注池化层和调度器中的设计决策:如何平衡功能需求与性能(如CUDA图处理)、如何处理混合batch中的标志聚合,以及模型文件中的条件返回模式。这些决策对类似API扩展有参考价值。
作者 leejnau · 合并时间 2026-04-16 05:54
移除标准MoE分发器中冗余的FP4量化导入,明确FlashInfer依赖并统一错误处理。
该PR值得精读,因为它展示了如何清理死代码和明确依赖关系,特别是在高性能计算库中处理可选依赖时的最佳实践。关注点包括导入逻辑的重构和运行时错误检查的添加,这些设计决策有助于提高代码的健壮性和可维护性。
作者 ishandhanani · 合并时间 2026-04-16 05:27
为日志分析器添加自动提Issue和可疑PR识别功能,优化CI故障处理流程。
该PR值得负责CI/CD和运维的工程师精读。重点关注 `log_analysis_prompt.md` 中新增的决策逻辑和规则,这是自动化故障处理的核心设计。同时,注意临时配置变更仅为测试目的,需跟踪后续PR以确保配置恢复。
作者 hnyls2002 · 合并时间 2026-04-16 05:15
修复流式会话中推测解码超限导致KV缓存错误的bug。
值得精读,特别是`_trim_overshoot`和`_free_kv_aligned`的设计,展示了如何处理页面对齐释放和状态修剪,对理解流式会话缓存管理有参考价值。
作者 ishandhanani · 合并时间 2026-04-16 05:10
添加基于Modal的Slurm日志分析工具,自动化CI失败调试。
值得精读,展示了如何将AI工具集成到CI/CD流水线中,特别是安全处理和错误恢复的设计决策,可作为基础设施自动化的参考案例。
参与讨论