Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 05:34 同步状态：空闲下次计划：2026-06-04 06:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-03

#43759 [XPU]fallback to TRITON_ATTN for vit attn on xpu when use float32 dtype

原始 PR · 作者 yma11 · 合并时间 2026-06-03 18:20

缺陷修复重要性 4.90 洞察度 3.00

XPU上ViT注意力float32回退到Triton

值得合并，修复明确且风险低。变更简单，与现有设计一致，无测试配套（但已有integration测试覆盖）。

bugfixintel-gpumulti-modality

#44348 [Bugfix] Fix unstreamed tool call args dropped in Responses API streaming

原始 PR · 作者 sfeng33 · 合并时间 2026-06-03 18:19

缺陷修复重要性 5.84 洞察度 4.00

修复 Responses API 流式工具调用参数丢失

值得快速合并。修复明确，改动量小，风险低。可关注后续是否还有类似遗漏的调用点。

bugfixfrontendresponses-api

#44347 [Bugfix] Update TrtLLM MoE routing methods

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 17:56

缺陷修复重要性 6.85 洞察度 5.00

修复 TrtLLM MoE 路由方法分类及 dtype 检查

建议尽快合入，以修复 CI 失败和模型兼容性问题。该 PR 展现了精细的路由方法分类调整，可精读 `get_routing_method_type` 的决策树逻辑，了解不同模型的路由模式。

bugfixnvidiakernel

#44388 [Doc] Update ViT CUDA graph interfaces

原始 PR · 作者 shen-shanshan · 合并时间 2026-06-03 16:21

文档重要性 2.60 洞察度 3.00

更新 ViT CUDA 图文档，同步代码变更

此 PR 是纯粹的文档同步更新，对大多数工程师无需精读。但若您正在使用或开发 ViT CUDA 图系统，建议查看此文档以了解最新的 API 和流程。

documentationnvidiacleanup

#44311 [Rust Frontend] Fix several hf chat template rendering issues

原始 PR · 作者 BugenZhao · 合并时间 2026-06-03 16:04

缺陷修复重要性 8.66 洞察度 7.00

修复 HF chat template 渲染的数字精度和字段影子问题

本 PR 值得精读，尤其关注以下要点：（1）如何在不修改 MiniJinja 核心的前提下，通过自定义 Object 和 pycompat 后门解决字段与方法冲突的设计模式；（2）全局 `serde_json` 特性调整时的依赖影响评估思路；（3）测试用例设计中对渲染精度妥协的明确标注。对于同样使用 MiniJinja 渲染 HF 模板的其他项目，此方案具有直接参考价值。

bugfixfrontendtool-calling

#43778 [Rust Frontend] Add dynamic LoRA endpoints

原始 PR · 作者 Xunzhuo · 合并时间 2026-06-03 15:55

功能重要性 9.09 洞察度 5.50

Rust 前端新增动态 LoRA 管理端点

该 PR 安全设计充分，并发控制合理，值得团队精读。建议后续补充 CI 中端到端测试，并关注路径验证的 TOCTOU 缓解。

featurefrontendlora

#43774 [Rust Frontend] Add server router extension hook

原始 PR · 作者 NolanHo · 合并时间 2026-06-03 15:45

功能重要性 6.15 洞察度 5.00

Rust 服务端新增路由器扩展钩子

值得阅读以了解 Rust 前端 API 的演进方向。该 PR 展示了如何以最小侵入的方式添加扩展点，设计决策（不暴露内部状态、闭包组合）值得借鉴。

frontendrustfeature

#44287 [KV Offloading] Enable HMA models for Tiering Offloading

原始 PR · 作者 varun-sundar-rabindranath · 合并时间 2026-06-03 15:03

功能重要性 4.89 洞察度 4.00

移除 HMA 模型在 Tiering Offload 中的限制

该 PR 本身改动极小（仅删除一行），但具有较大的功能影响。建议开发者和测试人员关注新增的兼容模型列表，并对 PR body 中列出的失败模型进行进一步调查。作为“解除封锁”类变更，值得快速合并，但后续应跟进失败模型的 root cause。

v1kv-connectorfeature

第 4 / 269 页 · 共 2147 条

上一页 1 2 3 4 5 … 269 下一页