修复负值 max_num_scheduled_tokens 绕过验证的 bug
这是一个清晰的低风险修复,值得合并。虽为微小改动,但体现了配置验证一致性的好实践——避免将验证逻辑分散在条件分支中。建议在类似场景(如 `max_num_seqs` 等字段)也应用相同模式。
标签列表
聚合结果
修复负值 max_num_scheduled_tokens 绕过验证的 bug
这是一个清晰的低风险修复,值得合并。虽为微小改动,但体现了配置验证一致性的好实践——避免将验证逻辑分散在条件分支中。建议在类似场景(如 `max_num_seqs` 等字段)也应用相同模式。
二分查找加速多模态特征遍历,每步 O(n)→O(log n)
此 PR 是典型的 O(n)→O(log n) 优化范例,推荐精读。关键设计决策包括:二分查找边界处理(使用 offset+length 而不是 offset)、encoder-decoder 特殊处理、以及 request_cached_ids 的清理策略。这些细节值得在类似优化中参考。
重构PP调度避免气泡,吞吐最高提升3倍
此 PR 是 ModelRunnerV2 的重要性能里程碑,强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计,这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试(如高并发出错恢复)。
为EC连接器引入非阻塞查询机制,允许调度器延迟等待多模态编码缓存预取的请求。
建议精读该PR的核心设计:`ensure_cache_available` 接口定义与调度器集成点,特别是如何通过非阻塞延迟提升吞吐。对于连接器实现者,应关注后续PR #42998 以了解完整用法。代码质量和测试覆盖良好,值得 merge。
修复滑动窗口块在卸载失败后变脏的问题
建议审核者重点审查 `_update_req_states` 中的全量遍历逻辑及其对性能的影响,确认设计权衡合理。同时鼓励在滑动窗口功能相关的集成测试中运行本 PR 的新测试用例。总体修复思路正确,值得精读。
原始 PR · 作者 benchislett · 合并时间 2026-05-28 05:45
修复DFlash前瞻槽位分配以解决崩溃
此PR虽然改动量小,但涉及投机解码与调度器交互的关键逻辑,值得精读。特别是`effective_lookahead_tokens`的条件演进和DFlash特殊需求的论证,可作为类似bug修复的参考。
更换默认 EPLB 通信器为 nixl/torch_gloo 以避免 NCCL 挂起
建议阅读该 PR 以了解如何通过轻量级检测和默认值变更避免分布式通信中的挂起问题,设计思路清晰,代码简洁。
避免异步输出占位符前向扫描,提升长序列解码吞吐
**强烈建议合并**。该 PR 通过 6 行添加、1 行删除实现了一个优雅且高性能的优化,基准测试证明了显著收益。变更经过 author 手动审查和 reviewer 批准,风险极低。值得关注的是 `update_async_output_token_ids` 方法中逆向扫描的设计模式,可作为类似占位符查找场景的参考。