#39592 [Pooling] Disable async scheduling by default for pooling models
作者 njhill · 合并时间 2026-04-12 15:23
为池化模型默认禁用异步调度,避免TTFT性能下降。
建议精读此PR以理解vLLM中调度策略与模型类型的耦合关系。关注点:1) 配置系统中模型类型与调度策略的交互逻辑;2) 异步调度对不同工作负载的性能影响权衡;3) 未来Runner V2架构可能如何解决当前限制。
标签列表
聚合结果
作者 njhill · 合并时间 2026-04-12 15:23
为池化模型默认禁用异步调度,避免TTFT性能下降。
建议精读此PR以理解vLLM中调度策略与模型类型的耦合关系。关注点:1) 配置系统中模型类型与调度策略的交互逻辑;2) 异步调度对不同工作负载的性能影响权衡;3) 未来Runner V2架构可能如何解决当前限制。
作者 puririshi98 · 合并时间 2026-04-09 04:30
在推测解码E2E测试中添加异步调度断言,确保配置正确启用。
建议测试工程师和推测解码开发者阅读此PR,以了解如何验证异步调度配置,并关注draft_model的进展。代码变更简单,但设计决策(如自定义异常和xfail处理)值得注意。
作者 ezylopx5 · 合并时间 2026-04-01 11:36
修复调度器优先级抢占回归测试,替换跳过测试为确定性多步验证。
建议技术管理者关注此PR,因为它展示了如何设计健壮的回归测试以验证核心调度器逻辑。工程师可精读测试函数以理解KV块压力和抢占机制的设计细节。
作者 markmc · 合并时间 2026-03-26 02:20
重构 KV 缓存失效处理逻辑,移除了对 num_cached_tokens 的依赖,统一同步与异步加载场景下的令牌计数计算。
对于负责调度器、KV 缓存管理或 KV 连接器模块的工程师,建议快速浏览此 PR 以理解错误处理逻辑的简化方向。重点关注 `req_num_computed_tokens` 的新计算方式及其背后的设计意图(精确反映已计算且已缓存的令牌)。对于更广泛的团队,可以将其视为一个代码清理和统一接口的示例。
作者 yewentao256 · 合并时间 2026-03-25 23:41
重构:将 WAITING_FOR_FSM 重命名为 WAITING_FOR_STRUCTURED_OUTPUT_GRAMMAR,提高代码清晰度。
该 PR 变更简单直接,建议开发者快速浏览以了解 structured-output 模块中状态命名的演进,无需精读;关注点在于代码风格一致性的实践。
作者 DanBlanaru · 合并时间 2026-03-25 01:01
添加调度器选项,基于完整输入序列长度准入请求,防止KV缓存颠簸和性能下降。
该PR值得精读,特别是`can_fit_full_sequence`方法的设计和调度集成逻辑,展示了如何通过准入控制优化资源利用率,以及review中关于配置和日志的决策权衡。