Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 07:21 同步状态：空闲下次计划：2026-06-01 08:21

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-28

#38369 [CI] Skip failing test

原始 PR · 作者 NickLucche · 合并时间 2026-03-28 04:25

测试重要性 3.00 洞察度 2.00

在registry中为Ernie模型指定revision以跳过CI失败测试。

该PR不值得精读，除非您关注CI测试策略或多模态模型集成。变更简单，设计决策较少，但需注意测试跳过的长期影响和潜在风险。

citestmulti-modality

#38032 [QeRL] Compose online quantization with quantized reloading

原始 PR · 作者 kylesayrs · 合并时间 2026-03-28 04:22

功能重要性 6.00 洞察度 6.00

重构在线量化逻辑以支持与量化重新加载协同工作，提升代码复用。

该 PR 值得精读，特别是关注 `initialize_online_processing` 如何抽象化在线量化和重新加载的共享逻辑，展示了模块化设计的好处。建议工程师学习其代码重构技巧，并注意 review 中关于正确性和测试覆盖的讨论，以应用到类似场景。

quantizationrefactortest

#38380 Add short flag `-sc` for `--speculative-config` argument

原始 PR · 作者 mgoin · 合并时间 2026-03-28 03:04

功能重要性 3.00 洞察度 2.00

为--speculative-config参数添加短标志-sc，提升CLI可用性。

该PR变更简单，值得快速阅读以了解vLLM项目中CLI参数添加短标志的标准做法。对于工程师，可关注review中提到的测试覆盖问题，考虑在后续维护中补充测试；对于管理者，可将其视为低风险改进，无需深入审查。

featurespeculative-decodingcleanup

#37453 [ROCm] Fix GPT-OSS import for triton 3.6

原始 PR · 作者 gshtras · 合并时间 2026-03-28 02:00

缺陷修复重要性 3.00 洞察度 2.00

修复 ROCm 上 gpt-oss 模型在 triton 3.6 中的导入兼容性问题。

此 PR 变更简单，适合了解如何优雅处理第三方库版本变更的场景，但对于深入学习核心逻辑价值有限。建议关注 try-except 回退模式在依赖管理中的应用。

rocmbugfixquantization

#38043 {ROCm]: gpt-oss fusion/padding fixes

原始 PR · 作者 Rohan138 · 合并时间 2026-03-28 00:19

缺陷修复重要性 5.00 洞察度 4.00

修复 ROCm 上 gpt-oss 模型的 padding 对齐和 RMSNorm fusion 问题。

建议工程师阅读此 PR 以了解 ROCm 特定优化和 padding 对齐的最佳实践，重点关注 `enable_norm_pad_fusion` 的逻辑变化和 MI300 padding 的调整，同时注意 gemini-code-assist[bot] 提到的相关错误可能需在其他 PR 中处理。

rocmquantizationbugfix

2026-03-27

#38350 Remove need for explicit `\n` in docstring lists for `--help` formatting

原始 PR · 作者 hmellor · 合并时间 2026-03-27 23:38

文档重要性 4.00 洞察度 4.00

移除配置类 docstring 中的显式换行符，优化 CLI 帮助文本格式化。

对于负责 CLI 或文档维护的开发者，建议阅读此 PR 以了解如何自动处理 docstring 列表格式化。重点关注 `SortedHelpFormatter._split_lines` 方法中的 regex 设计，它展示了处理 Markdown 风格列表的实用技巧，值得学习。

documentationcleanuprefactor

#33695 enable skipping of SW attention layers when using FP8 KV cache

原始 PR · 作者 jmkuebler · 合并时间 2026-03-27 21:25

功能重要性 6.00 洞察度 7.00

为FP8 KV缓存添加跳过滑动窗口注意力层量化的功能，以优化性能和减少精度风险。

建议技术管理者关注此PR从特定需求泛化为通用机制的设计思路，值得在其他功能扩展中借鉴。工程师应精读attention.py中的逻辑实现，特别是跳过检查的顺序和与现有代码的交互，以理解如何安全集成量化跳过功能。同时，注意review中提到的与PR #38124的潜在重构，未来可能影响dtype处理。

quantizationfeatureperformance

#37952 fix(security): Add VLLM_MAX_N_SEQUENCES environment variable and enforce limit

原始 PR · 作者 jperezdealgaba · 合并时间 2026-03-27 21:02

缺陷修复重要性 6.00 洞察度 4.00

添加 VLLM_MAX_N_SEQUENCES 环境变量，强制限制每请求输出序列数以防止拒绝服务攻击。

建议精读此 PR，特别是 vllm/sampling_params.py 中的验证逻辑和 docs/usage/security.md 的更新，以了解如何实现资源限制和防范 DoS 攻击。设计简单直接，但展示了安全配置的实践，值得工程师学习。

securitybugfixdocumentation

第 227 / 253 页 · 共 2021 条

上一页 1 … 225 226 227 228 229 … 253 下一页