修复 FlashInfer + DCP HND 布局崩溃
此 PR 可作为极小改动解决关键崩溃的典型范例,值得快速合并。建议后续补充自动化测试覆盖该场景,并考虑采纳 Copilot 建议显式指定布局参数以增强健壮性。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 FlashInfer + DCP HND 布局崩溃
此 PR 可作为极小改动解决关键崩溃的典型范例,值得快速合并。建议后续补充自动化测试覆盖该场景,并考虑采纳 Copilot 建议显式指定布局参数以增强健壮性。
原始 PR · 作者 shaharmor98 · 合并时间 2026-05-11 15:40
修复 NIXL side-channel host 在 Ray DP 中的选择错误
该 PR 值得阅读,特别是 `_set_nixl_side_channel_host` 和 `get_env_vars_to_copy` 的改动展示了分布式环境中环境变量隔离的设计模式。Review 中关于结构性修复 vs 症状修复的讨论也值得学习。
更新文档说明 MolmoWeb 模型使用 hf_overrides 配置
建议所有使用 MolmoWeb 模型或类似架构变体的用户阅读此文档。对于开发者,这是一个很好的示例,展示了如何在不添加新代码的情况下通过文档和 hf_overrides 机制支持模型变体。
精简 CI LoRA 测试,跳过冗余项
建议关注被跳过多 GPU 测试的死代码问题,考虑仅在 CI 特定标记而非平台级别跳过;对于 AMD CI,建议验证实际运行测试是否有效;此 PR 的设计决策值得学习,但覆盖风险需接受。
原始 PR · 作者 princepride · 合并时间 2026-05-11 13:53
新增 prompt_text 字段返回聊天模板渲染文本
该 PR 设计简洁,值得关注其参数设计思路和直接利用引擎内部数据的做法。推荐在类似场景(如需要暴露内部处理结果)时参考此模式。
原始 PR · 作者 wangxiyuan · 合并时间 2026-05-11 11:59
将 mamba_type 字符串改为枚举,简化选择器逻辑
建议阅读 `vllm/v1/attention/selector.py` 和 `vllm/v1/attention/backends/registry.py` 的变更,了解如何从字符串映射演进为类型安全枚举。对于关注类型安全和代码整洁的团队,这是一个值得借鉴的重构模式。
动态对齐MLA解码kernel的BLOCK_DMODEL以修复ROCm编译崩溃
建议精读。该PR展示了如何通过动态对齐维度修复硬件后端兼容性问题,其设计方案(基于Lv对齐而非Lk)值得ML架构开发者参考。同时,代码中多余的逻辑被reviewer发现并简化,体现了良好的代码审查流程。
修复 Gemma 4 聊天模板工具名称为空时崩溃
该 PR 简单但关键,建议直接合并。同时建议与 HuggingFace 上游团队(@lucianommartins)协调将相同修复合入 HF 官方模板,以覆盖使用 HF 默认模板的用户。
参与讨论