#44571 [Bugfix] Exclude vision embedder from quantization in Gemma4 Unified
原始 PR · 作者 lucianommartins · 合并时间 2026-06-05 11:47
修复 Gemma4 Unified 视觉编码器被量化的问题
值得精读,这是一个典型的由缺少 `prefix` 导致量化模块无法正确匹配忽略规则的问题。对于有量化忽略列表的模型实现,确保正确传递 `prefix` 是良好实践。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 lucianommartins · 合并时间 2026-06-05 11:47
修复 Gemma4 Unified 视觉编码器被量化的问题
值得精读,这是一个典型的由缺少 `prefix` 导致量化模块无法正确匹配忽略规则的问题。对于有量化忽略列表的模型实现,确保正确传递 `prefix` 是良好实践。
原始 PR · 作者 WoosukKwon · 合并时间 2026-06-05 11:23
[DSV4] 重构 DeepseekV4Attention 类体系,统一平台分派
推荐阅读,尤其适合关注多平台代码组织设计的学习者。基类 + 抽象方法 + 类变量配置的模式值得借鉴。此外,`ops/o_proj.py` 的提取是非侵入式重构的样例。建议阅读后关注后续是否会有其他模型采用类似架构。
原始 PR · 作者 cleonard530 · 合并时间 2026-06-05 11:14
迁移 cuda_view 和 silu_and_mul 内核到 stable ABI
值得阅读,特别是理解 stable ABI 迁移的增量策略和 torch 版本依赖管理。对于参与 CUDA 内核编译的开发者有参考价值。
XPU 支持 Block FP8 MoE 量化
该 PR 值得快速合入,变更简洁且聚焦。建议关注后续是否添加针对 Block FP8 的专项测试以覆盖更多量化组合。设计上继承现有架构,可读性强。
为Rust前端添加language-model-only标志跳过多模态加载
设计简洁,可以安全合并。对于仅使用语言模型的用户,推荐启用该标志以提高启动可靠性。值得关注的是如何在 Rust 和 Python 之间一致地传递参数的模式。
原始 PR · 作者 galletas1712 · 合并时间 2026-06-05 06:30
修复 DeepSeek V4 RoPE 缓存在 meta device 上的构造失败
该 PR 是经典的一行 bugfix,虽小但修复了深层 device 一致性问题。值得精读,尤其是理解 `torch.device` 在 meta device 场景下的传播模式。
统一 KDA 卷积状态为一个缓存
建议精读。这是一个典型的数据结构统一重构,展示了如何在不改变内核计算逻辑的前提下,通过调整状态分组来适配更通用的架构。对于理解 vLLM 中 Mamba 系列(特别是 GDN/KDA)的缓存设计很有帮助。
原始 PR · 作者 yewentao256 · 合并时间 2026-06-05 02:36
优化关闭日志,统一格式并增加上下文信息
值得精读,展示了如何系统性地改进大规模分布式系统的关机可观测性。关注的几点:日志前缀约定、级别权衡、上下文的添加时机。
参与讨论