#38935 [PD][HeteroArch]Fix accuracy issue with CPU_ATTN as Decoder and Flash_ATTN as prefiller
作者 xuechendi · 合并时间 2026-04-09 11:19
修复异构架构中CPU_ATTN解码器与Flash_ATTN预填充器间的精度问题
建议工程师精读此PR,重点关注KV缓存布局转换逻辑和讨论中的设计权衡;对于涉及异构注意力的开发,需注意未解决的风险点,并考虑后续优化。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 xuechendi · 合并时间 2026-04-09 11:19
修复异构架构中CPU_ATTN解码器与Flash_ATTN预填充器间的精度问题
建议工程师精读此PR,重点关注KV缓存布局转换逻辑和讨论中的设计权衡;对于涉及异构注意力的开发,需注意未解决的风险点,并考虑后续优化。
作者 yewentao256 · 合并时间 2026-04-09 11:06
修复 vLLM v1 版本 attention ops 目录的 mypy 类型检查错误。
对于关注代码质量和 CI 流程的开发者,建议精读以了解 mypy 修复模式;对于 ROCm 或注意力模块维护者,需注意 review 中提到的截断问题,并关注后续 PR 的修复。
作者 noobHappylife · 合并时间 2026-04-09 10:50
修复Responses API JSON Schema序列化中别名使用问题,确保公开字段'schema'正确输出。
该PR值得精读,特别是序列化设计决策部分,如使用by_alias=True确保API兼容性,以及测试更新中处理Harmony消息格式差异的方法。建议关注protocol.py中serialize_message的修改,它修复了回归并返回JSON对象,这对消息序列化路径有重要影响。
作者 ieBoytsov · 合并时间 2026-04-09 10:48
更新ColModernVBERT以支持最新HF checkpoint扁平配置,移除遗留代码和revision固定。
该PR值得精读,特别是配置类重构和权重加载简化部分,展示了如何适配HF checkpoint变化并移除遗留代码。关注`colmodernvbert.py`中load_weights方法的变更,以理解权重映射的简化策略。
作者 wzhao18 · 合并时间 2026-04-09 10:42
修复TRTLLM per-block FP8 MoE中路由偏置数据类型问题,解决DeepSeek R1输出错误。
该PR值得快速浏览,了解FlashInfer数据类型要求的特定约束。重点关注:1) 路由偏置数据类型对MoE精度的影响;2) 量化配置(per-block vs per-tensor)的测试覆盖差异;3) 代码重复问题可作为后续重构点。
作者 AjAnubolu · 合并时间 2026-04-09 10:42
移除CPU权重卸载时非默认块大小触发的断言,修复模型加载失败。
该PR值得快速浏览以理解CPU卸载与块大小交互的修复。关注点:断言移除的合理性基于“原问题不再存在”的假设,建议结合历史PR #18298(断言引入点)验证上下文。对于使用混合块大小模型的团队,此修复是关键,但需注意可能伴随的乱码输出问题(Issue #38718)。
作者 dsikka · 合并时间 2026-04-09 09:57
支持Gemma4量化MoE模型权重加载,扩展2D量化专家参数映射逻辑。
该PR值得精读,特别是权重映射和正则表达式重映射的设计决策,展示了如何处理量化参数与原始权重的命名差异。关注`load_weights`中的前缀匹配逻辑和`_weight_iterator`中的重映射策略。
作者 mgoin · 合并时间 2026-04-09 09:56
通过CMake集成DeepGEMM到vLLM wheel,移除手动安装步骤,提升用户体验。
建议技术管理者精读cmake/external_projects/deepgemm.cmake文件以理解构建设计决策,如使用FetchContent_Populate避免冲突。工程师可关注deep_gemm.py中的导入优先级机制,这对类似库集成有借鉴价值。
参与讨论