Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 21:16 同步状态：空闲下次计划：2026-06-14 22:16

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#38172 [Misc] Add 20 regression tests for 11 tool parser bug fixes

原始 PR · 作者 bbrowning · 合并时间 2026-04-01 11:00

测试重要性 5.00 洞察度 4.00

为11个工具解析器bug修复添加20个回归测试，防止功能回归。

建议： - **对于工具解析器开发工程师**：值得精读，以了解各种edge cases和bug修复的测试设计。 - **对于测试工程师**：可参考这些测试作为模型特定解析器测试的范例。 - **对于一般读者**：若非相关模块维护者，可略过，重点关注讨论中的技术权衡。

testtool-callingbugfix

#33825 [vLLM IR] 1/N Implement IR skeleton and rms_norm op

原始 PR · 作者 ProExpertProg · 合并时间 2026-04-01 10:15

功能重要性 8.00 洞察度 8.00

实现 vLLM IR 骨架和 rms_norm 操作，为多平台内核提供统一分发框架。

建议技术管理者和工程师精读此 PR，重点关注 IR 框架的设计决策，如操作注册机制、优先级调度系统和编译时降低传递。这些设计为 vLLM 的架构演进提供了可扩展基础，值得借鉴于其他自定义操作迁移。同时，注意性能测试结果和未完成部分（如 fused_add_rms_norm），以规划后续工作。

featurerefactorcompilation

#38148 Fix NaN from stale FP4 scale padding in create_fp4_scale_tensor

原始 PR · 作者 elvircrn · 合并时间 2026-04-01 10:15

缺陷修复重要性 5.00 洞察度 3.00

修复FP4比例张量未初始化导致的NaN污染，确保Blackwell架构上MoE层输出稳定。

建议开发者在处理量化或张量初始化时，精读此PR以了解未初始化内存的风险，并关注`create_fp4_scale_tensor`函数的修改。对于涉及MoE或FP4的代码，注意填充行处理策略。

bugfixquantization

#37160 [Feat][v1] Simple yet General CPU KV Cache Offloading

原始 PR · 作者 ivanium · 合并时间 2026-04-01 08:58

功能重要性 7.00 洞察度 7.00

新增SimpleCPUOffloadConnector，简化CPU KV缓存卸载路径，重用现有基础设施，提升性能与通用性。

该PR值得精读，特别是对于关注缓存卸载和性能优化的工程师。值得关注的设计决策包括：重用现有BlockPool和KVCacheCoordinator以实现简洁性、使用异步DMA传输减少开销、以及懒加载模式的设计。建议关注review中讨论的风险点，如内存管理和API兼容性，并考虑在类似项目中借鉴其模块化实现。

performancefeaturekv-connector

#37887 [ROCm][perf] fix Aiter sparse MLA with MTP>1

原始 PR · 作者 gronsti-amd · 合并时间 2026-04-01 07:22

缺陷修复重要性 5.00 洞察度 5.00

修复 ROCm 上 speculative decoding 与 MTP 方法及多推测 tokens 的兼容性问题，支持 DeepSeek v3.2。

建议精读此 PR，以学习如何处理注意力元数据类型验证和重构函数接口。关注 build_per_group_and_layer_attn_metadata 的设计决策，它分离了组和层元数据，提高了代码清晰度和健壮性。

rocmspeculative-decodingbugfix

#34539 Generative Scoring

原始 PR · 作者 vedantjh2 · 合并时间 2026-04-01 07:02

功能重要性 7.00 洞察度 7.00

为CausalLM模型新增独立生成评分API端点，支持高效特定令牌概率计算。

建议技术管理者关注此PR的设计决策，特别是API分离的架构权衡，这对未来功能扩展有借鉴意义。工程师应精读 `vllm/v1/sample/sampler.py` 中的 `gather_specific_token_logprobs` 方法，了解高效日志概率计算的实现细节，同时检查测试文件以确保覆盖边界条件。

frontendfeaturedocumentation

#38333 feat(grpc): add periodic stats logging and servicer log forwarding

原始 PR · 作者 CatherineSue · 合并时间 2026-04-01 06:50

功能重要性 5.00 洞察度 5.00

为vLLM gRPC服务器添加周期性状态日志，提升操作监控能力。

值得精读，特别是关注后台任务的异常处理设计和与外部模块的协作模式，这对于分布式系统的日志管理有借鉴意义。

frontendfeatureperformance

#38637 [Quantization] Consolidate dummy format logic into DummyModelLoader

原始 PR · 作者 Josephasafg · 合并时间 2026-04-01 06:20

重构重要性 5.00 洞察度 5.00

将 dummy 权重加载逻辑整合到 DummyModelLoader 中，移除 layerwise.py 中的重复代码。

建议精读此 PR，以了解如何将分散的逻辑整合到特定类中，提升代码组织。关注 review 中关于回归风险的讨论，学习如何在重构时避免引入新问题。对于开发者来说，这是学习代码模块化设计的良好案例。

quantizationrefactorcleanup

第 274 / 314 页 · 共 2508 条

上一页 1 … 272 273 274 275 276 … 314 下一页