改进 aarch64/DGX Spark 平台开发环境支持,更新文档和依赖条件。
对于在 aarch64 或跨平台环境工作的开发者,此 PR 值得快速浏览以了解正确设置方法。关注 `--torch-backend=auto` 参数的使用和平台依赖条件的设计,这些决策体现了对多架构支持的重视,可作为类似文档更新的参考。
A high-throughput and memory-efficient inference and serving engine for LLMs
改进 aarch64/DGX Spark 平台开发环境支持,更新文档和依赖条件。
对于在 aarch64 或跨平台环境工作的开发者,此 PR 值得快速浏览以了解正确设置方法。关注 `--torch-backend=auto` 参数的使用和平台依赖条件的设计,这些决策体现了对多架构支持的重视,可作为类似文档更新的参考。
添加针对顶级模型的 torch.compile 启动时间测试,扩展 H100 设备上的测试覆盖。
对于关注编译性能或测试基础设施的开发者,建议精读 `tests/compile/h100/test_startup.py` 以了解参数化测试设计和计数器检查逻辑。关注测试中使用的 `CompilationConfig` 和 `compilation_counter`,这些是验证 vLLM-compile 集成正确性的关键。同时,留意 issue #38051 的后续进展。
原始 PR · 作者 yewentao256 · 合并时间 2026-03-25 23:41
重构:将 WAITING_FOR_FSM 重命名为 WAITING_FOR_STRUCTURED_OUTPUT_GRAMMAR,提高代码清晰度。
该 PR 变更简单直接,建议开发者快速浏览以了解 structured-output 模块中状态命名的演进,无需精读;关注点在于代码风格一致性的实践。
原始 PR · 作者 Nekofish-L · 合并时间 2026-03-25 23:20
优化SM120 GPU上FP8 GEMM分块调度,提升解码性能。
建议工程师精读此PR,特别是对CUDA kernel优化、CUTLASS调度和量化性能提升感兴趣的开发者。关注基于问题大小动态分派kernel的设计决策,以及性能测试的方法和结果。
修复CMake构建中丢失CUDA架构后缀的bug,避免SM12x设备上NVFP4推理产生NaN。
此PR值得精读,特别是对于负责构建系统和CUDA编译优化的工程师。关注点包括:正则表达式的修改如何保留后缀、架构检测的逻辑演变,以及从后续问题中学到的跨文件协调教训。建议结合PR 38126一起阅读,以理解完整的修复链条,并关注构建系统在其他PR中的演进。
原始 PR · 作者 yewentao256 · 合并时间 2026-03-25 23:16
为 GPU Model Runner v2 添加专家并行负载均衡(EPLB)支持。
该 PR 值得精读,重点关注设计决策如从继承改为组合模式、以及装饰器的使用,这些体现了良好的软件工程实践。同时,需留意 review 中讨论的崩溃风险,可能需要在未来版本中进一步优化。
为 speculative decoding 的 draft model 添加独立 MoE backend 配置支持。
该 PR 值得精读,因为它展示了如何优雅地扩展配置系统以支持独立后端,并通过重构优化代码结构。关注 `SpecDecodeBaseProposer` 中的 `_create_draft_vllm_config` 方法设计,以及配置继承模式,这些设计决策对于理解 vLLM 的 speculative decoding 架构演进有参考价值。
添加代理指令编辑指南,设置令牌预算和内容归属规则。
建议精读此PR,特别是editing-agent-instructions.md文件,以理解代理指令维护的最佳实践、令牌预算限制和渐进式披露设计决策,对文档管理有借鉴意义。
参与讨论