Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 23:51 同步状态：空闲下次计划：2026-04-22 00:51

PR 列表

已合并 868 · 已分析 868

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#39088 [XPU] Quick fix for TritonMLA to remove cuda hardcode

原始 PR · 作者 xuechendi · 合并时间 2026-04-08 00:17

缺陷修复重要性 5.00 洞察度 4.00

修复 TritonMLA 后端中 CUDA 硬编码，支持 XPU 平台运行 DeepSeek-V2-Lite 模型。

该 PR 变更简洁，但涉及核心注意力后端和 MOE 层的平台兼容性，建议关注 `current_platform` 抽象的使用模式，可作为类似平台移植任务的参考。对于 XPU 平台开发者，值得精读以理解后端判断逻辑的演进。

bugfixv1xpu

2026-04-07

#37502 [Bugfix] Fix marlin nvfp4 rescaling

原始 PR · 作者 jinzhen-lin · 合并时间 2026-04-07 23:57

缺陷修复重要性 5.00 洞察度 4.00

修复 Marlin NVFP4 量化重缩放逻辑，避免因极小尺度值导致的断言失败。

该 PR 值得精读，尤其是量化模块的开发者。关注尺度因子计算逻辑从基于最小值到基于最大值的转变，以及钳位处理的设计决策，这反映了对量化数值稳定性的权衡。

bugfixv1quantization

#37636 [KVConnector] Support 3FS KVConnector

原始 PR · 作者 ibifrost · 合并时间 2026-04-07 23:46

功能重要性 7.00 洞察度 6.00

引入 3FS KVConnector 支持，实现 KV 缓存跨节点高效卸载和共享。

该 PR 值得精读，特别是其异步操作管理和资源清理设计。工程师应关注 review 中修复的逻辑错误，以及元数据服务器中的分配策略，这些是分布式系统中的关键决策点。

kv-connectorv1feature

#38517 [Bugfix][Quantization] Fix PerTensorScale loading with tuple shard_id in MergedColumnParallelLinear

原始 PR · 作者 kkyyxhll · 合并时间 2026-04-07 23:16

缺陷修复重要性 6.00 洞察度 5.00

修复MergedColumnParallelLinear中PerTensorScale参数在tuple shard_id时的加载错误，解决Qwen3.5模型FP8静态逐张量量化输出乱码问题。

该PR值得精读，因为它揭示了一个在融合线性层中处理量化scale参数的微妙bug。关注点：1. 理解MergedColumnParallelLinear如何支持tuple shard_id以处理融合投影（如Qwen3.5的in_proj_qkvz）。2. 学习PerTensorScaleParameter在量化权重加载中的角色。3. 注意bug的根因：硬编码shard_id=0忽略了tuple的语义，导致scale未正确传播。

bugfixv1quantization

#38301 [KVConnector]: prioritize external connector over internal registry

原始 PR · 作者 maobaolong · 合并时间 2026-04-07 23:03

缺陷修复重要性 5.00 洞察度 6.00

修复KVConnectorFactory中外部连接器优先级低于内部注册表的问题，确保用户自定义模块优先加载。

该PR值得精读，虽然变更规模小，但揭示了KVConnectorFactory设计中的一个重要权衡：内部注册表与外部扩展的优先级管理。关注点：1. 设计决策：选择优先级调整而非禁止重复名称的权衡；2. 防御性编程：添加空字符串验证的细节处理；3. 实际应用场景：KuntaiDu分享的协作问题展示了该修复的实际价值。

kv-connectorv1bugfix

#39176 fix(test): recompute Jina ColBERT rotary inv_freq cleared by transformers v5 weight loader

原始 PR · 作者 ieBoytsov · 合并时间 2026-04-07 22:40

缺陷修复重要性 3.00 洞察度 4.00

修复Transformers v5权重加载后Jina ColBERT模型旋转嵌入inv_freq缓冲区被清空导致的NaN输出问题。

该PR值得快速浏览，了解Transformers v5权重加载机制对非持久化缓冲区的影响。关注点：1）非持久化缓冲区在权重加载中的处理变化；2）测试中模型状态恢复的模式。

bugfixv1test

#37292 Fix Mistral yarn warning in Transformers v5

原始 PR · 作者 hmellor · 合并时间 2026-04-07 21:23

缺陷修复重要性 3.00 洞察度 4.00

修复 Transformers v5 中 Mistral YaRN 模型的警告，通过版本检查设置忽略键。

该 PR 是一个简单的 bugfix，变更直白，但展示了处理外部依赖版本兼容性的良好实践，值得快速浏览以了解版本 guard 的设计。对于维护模型配置模块的工程师，建议关注此模式。

bugfixv1model

#37434 Automatically add links to API docs for matching strings in docs

原始 PR · 作者 hmellor · 合并时间 2026-04-07 21:21

文档重要性 4.00 洞察度 5.00

新增 MkDocs hook 自动将文档内联代码引用链接到 API 文档页面。

建议文档维护者和基础设施工程师精读此 PR，以了解自动化文档链接的技术实现，但对一般运行时代码开发影响较小，无需重点关注。

documentationv1feature

第 50 / 109 页 · 共 868 条

上一页 1 … 48 49 50 51 52 … 109 下一页

支持 Prhub ♥