#39644 [Bugfix] [Tests] Enforce `out` tensor device in `kernel/moe/test_cutedsl_moe.py`
作者 zyongye · 合并时间 2026-04-13 08:08
修复CUDSL MoE测试中张量设备不匹配导致的IMA问题。
该PR变更简单,无需精读。对于工程师,可关注点:在编写测试时确保张量设备一致性,避免跨设备操作导致的IMA问题。对于技术管理者,这是一个典型的测试稳定性修复,无需额外关注。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 zyongye · 合并时间 2026-04-13 08:08
修复CUDSL MoE测试中张量设备不匹配导致的IMA问题。
该PR变更简单,无需精读。对于工程师,可关注点:在编写测试时确保张量设备一致性,避免跨设备操作导致的IMA问题。对于技术管理者,这是一个典型的测试稳定性修复,无需额外关注。
作者 anijain2305 · 合并时间 2026-04-13 04:20
修复编译后端中 _decompose_size_nodes 对 getitem 用户处理错误导致的参数数量问题。
建议编译模块开发者精读此 PR,了解 size 节点分解的正确处理方式,并注意 symbolic 索引的潜在问题。对于符号形状支持,可能需要进一步优化或添加测试覆盖 symbolic 场景。
作者 Young-Leo · 合并时间 2026-04-12 22:28
修复 MoE 专家路由捕获器在数据并行和 MK 量化路径下的断言错误,避免 CUDA 图捕获崩溃。
建议工程师精读 `routed_experts_capturer.py` 的 `capture` 方法变更,理解两种 DP dispatch 路径的差异及其在量化上下文中的处理方式。关注错误处理从警告到断言的演变,这体现了对可靠性的重视。
作者 NickLucche · 合并时间 2026-04-12 21:10
将NIXL KV缓存传输连接器重构为模块化目录结构,提升代码组织性和可维护性。
建议技术管理者将此PR视为代码组织最佳实践案例,关注模块化设计对长期维护的益处。工程师应精读scheduler.py和worker.py,理解线程安全设计和模块职责分离;同时注意review中提到的未解决风险,在后续开发中优先修复。
作者 markmc · 合并时间 2026-04-12 17:22
移除误导性的prompt_tokens_recomputed指标,简化缓存命中统计逻辑。
该PR值得精读,尤其是对于关注vLLM指标系统和缓存命中统计的工程师。关键设计决策包括:1) 识别并移除误导性指标,避免技术债务;2) 简化统计公式,使local_cache_hit和external_kv_transfer的计算更直观;3) 与PR #37460的关联展示了指标系统的演进方向。
作者 njhill · 合并时间 2026-04-12 15:23
为池化模型默认禁用异步调度,避免TTFT性能下降。
建议精读此PR以理解vLLM中调度策略与模型类型的耦合关系。关注点:1) 配置系统中模型类型与调度策略的交互逻辑;2) 异步调度对不同工作负载的性能影响权衡;3) 未来Runner V2架构可能如何解决当前限制。
作者 hickeyma · 合并时间 2026-04-12 15:01
为 HMA 启用 GPU 端 KV 事件,添加组 ID 字段支持前缀缓存路由。
该 PR 值得精读,尤其关注设计决策如字段简化(从列表到标量)和范围控制(仅 GPU 端),这些体现了在复杂系统中渐进式开发的权衡。工程师可以学习如何优雅地扩展事件系统、处理可选字段的哈希兼容性,以及通过测试驱动确保功能正确。建议重点查看 `kv_events.py` 和 `block_pool.py` 的变更逻辑。
作者 r266-tech · 合并时间 2026-04-12 12:10
修复 Kimi-K2.5 多模态推理因媒体占位符 token ID 不匹配导致的崩溃问题。
该 PR 值得精读,因为它展示了处理模型配置与运行时 tokenizer 不一致的优雅模式:通过 tokenizer 解析关键 token ID 并动态打补丁配置,同时添加防护检查避免静默失败。关注设计决策:在初始化时解析并缓存 token ID,避免每次调用都查询 tokenizer;使用 logger.warning_once 记录不一致情况,便于调试;添加 unk_token_id 验证确保鲁棒性。
参与讨论