#38369 [CI] Skip failing test
原始 PR · 作者 NickLucche · 合并时间 2026-03-28 04:25
在registry中为Ernie模型指定revision以跳过CI失败测试。
该PR不值得精读,除非您关注CI测试策略或多模态模型集成。变更简单,设计决策较少,但需注意测试跳过的长期影响和潜在风险。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 NickLucche · 合并时间 2026-03-28 04:25
在registry中为Ernie模型指定revision以跳过CI失败测试。
该PR不值得精读,除非您关注CI测试策略或多模态模型集成。变更简单,设计决策较少,但需注意测试跳过的长期影响和潜在风险。
重构在线量化逻辑以支持与量化重新加载协同工作,提升代码复用。
该 PR 值得精读,特别是关注 `initialize_online_processing` 如何抽象化在线量化和重新加载的共享逻辑,展示了模块化设计的好处。建议工程师学习其代码重构技巧,并注意 review 中关于正确性和测试覆盖的讨论,以应用到类似场景。
为--speculative-config参数添加短标志-sc,提升CLI可用性。
该PR变更简单,值得快速阅读以了解vLLM项目中CLI参数添加短标志的标准做法。对于工程师,可关注review中提到的测试覆盖问题,考虑在后续维护中补充测试;对于管理者,可将其视为低风险改进,无需深入审查。
修复 ROCm 上 gpt-oss 模型在 triton 3.6 中的导入兼容性问题。
此 PR 变更简单,适合了解如何优雅处理第三方库版本变更的场景,但对于深入学习核心逻辑价值有限。建议关注 try-except 回退模式在依赖管理中的应用。
修复 ROCm 上 gpt-oss 模型的 padding 对齐和 RMSNorm fusion 问题。
建议工程师阅读此 PR 以了解 ROCm 特定优化和 padding 对齐的最佳实践,重点关注 `enable_norm_pad_fusion` 的逻辑变化和 MI300 padding 的调整,同时注意 gemini-code-assist[bot] 提到的相关错误可能需在其他 PR 中处理。
移除配置类 docstring 中的显式换行符,优化 CLI 帮助文本格式化。
对于负责 CLI 或文档维护的开发者,建议阅读此 PR 以了解如何自动处理 docstring 列表格式化。重点关注 `SortedHelpFormatter._split_lines` 方法中的 regex 设计,它展示了处理 Markdown 风格列表的实用技巧,值得学习。
为FP8 KV缓存添加跳过滑动窗口注意力层量化的功能,以优化性能和减少精度风险。
建议技术管理者关注此PR从特定需求泛化为通用机制的设计思路,值得在其他功能扩展中借鉴。工程师应精读attention.py中的逻辑实现,特别是跳过检查的顺序和与现有代码的交互,以理解如何安全集成量化跳过功能。同时,注意review中提到的与PR #38124的潜在重构,未来可能影响dtype处理。
原始 PR · 作者 jperezdealgaba · 合并时间 2026-03-27 21:02
添加 VLLM_MAX_N_SEQUENCES 环境变量,强制限制每请求输出序列数以防止拒绝服务攻击。
建议精读此 PR,特别是 vllm/sampling_params.py 中的验证逻辑和 docs/usage/security.md 的更新,以了解如何实现资源限制和防范 DoS 攻击。设计简单直接,但展示了安全配置的实践,值得工程师学习。
参与讨论