Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 23:51 同步状态：空闲下次计划：2026-04-22 00:51

PR 列表

已合并 868 · 已分析 868

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#38217 [KV Offload] Clean up ARC/LRU refactoring leftovers: group ARC tests and fix stale comment

原始 PR · 作者 ronensc · 合并时间 2026-04-07 20:14

重构重要性 3.00 洞察度 2.00

清理KV卸载重构残留，修复过时注释并分组ARC测试函数。

对于关注vLLM KV卸载模块或代码重构历史的开发者，值得快速浏览以了解测试组织改进；无需深入精读，除非涉及ARC缓存策略的测试细节。

cleanuprefactorv1

#39054 [Bug] Fix Trtllm Fp8 MoE Weight Shuffle Memory Fragamentation

原始 PR · 作者 wzhao18 · 合并时间 2026-04-07 20:04

缺陷修复重要性 5.00 洞察度 4.00

修复Trtllm FP8 MoE权重重排中的内存碎片化问题，避免OOM。

建议精读以理解内存碎片化问题的典型解决方案。关注 `_shuffle_deepseek_fp8_moe_weights` 函数的设计变更：预分配张量 vs 列表堆叠，这是优化内存密集型操作的常见模式。

bugfixv1quantization

#38699 [Bugfix] Correct mistake in chained comparison in static assert logic

原始 PR · 作者 KyleMylonakisProtopia · 合并时间 2026-04-07 18:24

缺陷修复重要性 4.00 洞察度 2.00

修复MacOS构建中因链式比较语法错误导致的编译器警告。

此PR变更简单，无需精读。对于工程师，可作为C++中避免链式比较的最佳实践示例；对于管理者，表明团队对跨平台兼容性和代码质量的关注。

bugfixcpuv1

#38763 only patch runtime_env for torch >= 2.10

原始 PR · 作者 Rohan138 · 合并时间 2026-04-07 17:29

缺陷修复重要性 4.00 洞察度 3.00

修复PyTorch版本兼容性问题，限制特定补丁仅在2.10-2.12版本生效。

该PR虽小但关键，值得所有涉及多PyTorch版本兼容性或OOT后端集成的工程师关注。重点关注`is_torch_equal_or_newer`函数的实现和版本边界测试，确保补丁在正确版本范围内生效。

bugfixv1

#39014 [vLLM IR] rework gemma_rms_norm

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-07 16:37

重构重要性 6.00 洞察度 7.00

重构 GemmaRMSNorm 以支持混合数据类型，并修复融合过程中的精度问题。

建议技术管理者和工程师精读此 PR，重点关注 RMSNorm 的数据类型处理设计、融合限制的权衡，以及如何通过统一 IR 操作简化代码。设计决策值得学习，尤其是在处理混合精度场景时，但需注意潜在的性能开销和未来优化方向。

refactorv1model

#39092 [Model] Use AutoWeightsLoader for FalconH1

原始 PR · 作者 rishaps · 合并时间 2026-04-07 16:25

重构重要性 5.00 洞察度 5.00

重构Falcon-H1模型以使用AutoWeightsLoader标准化权重加载。

建议工程师精读此PR，了解如何使用AutoWeightsLoader重构模型权重加载逻辑，特别关注tie_word_embeddings的处理方式，以应用于其他模型的重构。

refactormodelv1

#38727 nano-nemotron-vl: get_mm_max_tokens_per_item for audio, video, image == seq_len

原始 PR · 作者 netanel-haber · 合并时间 2026-04-07 15:23

缺陷修复重要性 5.00 洞察度 4.00

修改Nano Nemotron VL模型，将音频、视频、图像的token限制硬编码为序列长度以绕过配置接口限制。

建议精读此PR以理解多模态模型中token限制处理的临时权衡，关注硬编码决策的上下文和gemini-code-assist[bot]指出的风险，对于涉及调度或多模态功能的开发有参考价值。

bugfixv1model

#39123 [ROCm] Remove unused IS_FNUZ parameter from reshape_and_cache_shuffle_kernel

原始 PR · 作者 Bortlesboat · 合并时间 2026-04-07 15:18

cleanup 重要性 3.00 洞察度 3.00

移除ROCm Flash Attention后端中未使用的IS_FNUZ参数，消除冗余平台检查与编译开销。

该PR变更简单，是典型的死代码清理，无需深入精读。值得关注的点是：它展示了如何识别和移除未使用的tl.constexpr参数以避免不必要的JIT编译开销，这对性能敏感的内核开发有借鉴意义。

rocmv1cleanup

第 51 / 109 页 · 共 868 条

上一页 1 … 49 50 51 52 53 … 109 下一页

支持 Prhub ♥