Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 11:28 同步状态：空闲下次计划：2026-06-01 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#38478 [Bug fix][Quantization] Fix dummy weight loading

原始 PR · 作者 Josephasafg · 合并时间 2026-03-31 04:38

缺陷修复重要性 5.00 洞察度 5.00

修复使用dummy加载格式时在线量化方法的内存不足问题。

对于从事量化、模型加载或layerwise reloading的工程师，建议精读此PR，因为它展示了如何正确集成dummy weight加载与layerwise处理机制，设计决策如deferred initialization和逻辑集中化值得学习。同时，关注review中讨论的边缘案例处理，以增强代码健壮性。

bugfixquantizationfp8

#38381 [ROCm][CI] Pin test_hybrid test to TRITON_ATTN on ROCm

原始 PR · 作者 micah-wil · 合并时间 2026-03-31 04:26

测试重要性 4.00 洞察度 3.00

在 ROCm 平台上固定 test_hybrid 测试使用 TRITON_ATTN 后端以减少 flakiness。

这是一个简单的测试修复，值得快速阅读以了解如何处理平台特定测试 flakiness；关注条件变量的定义和使用模式，以及作者基于观察的决策。

rocmtestbugfix

#36261 [EPLB] Optmize eplb mapping and record in router for prefill

原始 PR · 作者 ilmarkov · 合并时间 2026-03-31 03:48

性能优化重要性 6.00 洞察度 7.00

优化EPLB映射和记录内核，跳过不必要统计以提升prefill性能。

建议技术管理者和工程师精读此PR，关注Triton内核优化技巧和条件记录的设计决策，这对于高性能计算和专家并行负载均衡有借鉴意义。同时，review中的内存安全讨论值得学习以规避类似风险。

performancerefactortest

#36847 [Feat][Spec Decode] DFlash

原始 PR · 作者 benchislett · 合并时间 2026-03-31 03:03

功能重要性 8.00 洞察度 7.00

新增 DFlash 推测性解码方法，支持双向注意力以加速 Qwen3 模型推理。

建议技术管理者和工程师精读此 PR，以了解推测性解码的新架构设计，特别是双向注意力的实现细节和 CUDA 图优化挑战。关注 `dflash.py` 中的输入准备逻辑和 `eagle.py` 的重构，这些决策值得借鉴用于未来扩展。

speculative-decodingqwenfeature

#37221 [3/n] Migrate cutlass/scaled_mm_entry.cu torch stable ABI

原始 PR · 作者 mikaylagawarecki · 合并时间 2026-03-31 02:20

重构重要性 7.00 洞察度 6.00

迁移CUTLASS量化GEMM和MoE内核到PyTorch稳定ABI，提升ABI兼容性。

此PR值得技术管理者和核心工程师精读，因为它展示了大规模稳定ABI迁移的具体策略，包括文件组织、类型替换和构建配置调整。重点关注设计决策：如何平衡代码简化与命名冲突、如何处理预存在的不一致问题。对于类似迁移项目，可借鉴其渐进式提交（先移动后迁移）和review中讨论的风险缓解方法。

refactorquantization

#35862 [Refactor] Unify engine process monitoring in engine manager and add Ray backend support

原始 PR · 作者 fangyuchu · 合并时间 2026-03-31 01:16

重构重要性 6.00 洞察度 6.00

统一引擎进程监控逻辑并添加Ray后端支持，修复监控缺失问题。

建议精读此PR，特别是vllm/v1/engine/utils.py中的monitor_engine_liveness实现，以学习中央化监控设计模式。关注review讨论中关于Ray后端正确性修复和超时延迟优化的决策，这些对理解vLLM引擎生命周期管理有重要价值。

refactorbugfixfrontend

#38562 [Bugfix][MLA] Change default SM100 MLA prefill backend back to TRT-LLM

原始 PR · 作者 MatthewBonanni · 合并时间 2026-03-31 00:51

缺陷修复重要性 5.00 洞察度 4.00

修复 SM100 上 MLA prefill 默认后端错误，改回 TRT-LLM 以避免 Kimi-K2.5 输出问题。

建议技术管理者关注此 PR，因为它揭示了 MLA prefill 后端选择的脆弱性和配置命名问题。工程师应阅读相关代码块（如作者链接的 mla_attention.py）以理解后端选择逻辑，并关注未来接口清理工作（如 PR #32623）。

bugfixmodel

#37467 [HMA]Move hybrid blksize to update_block_size_for_backend to fix attn supported block size is not 16 issue

原始 PR · 作者 xuechendi · 合并时间 2026-03-31 00:47

缺陷修复重要性 6.00 洞察度 7.00

将混合模型块大小对齐移至平台后端更新，修复XPU上块大小不匹配导致的KV缓存错误。

建议技术管理者和工程师精读此PR，重点关注`Platform.update_block_size_for_backend`的设计决策，特别是如何通过推迟对齐时机解决平台依赖问题。同时，注意`user_specified_mamba_block_size`的引入，以避免无意覆盖用户设置。对于涉及平台适配或混合模型开发的工程师，此PR提供了重构范例，值得学习其模块化思路。

bugfixrefactorxpu

第 220 / 253 页 · 共 2021 条

上一页 1 … 218 219 220 221 222 … 253 下一页