Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#43779 [Rust Frontend] Support streaming `generate` endpoint

原始 PR · 作者 Xunzhuo · 合并时间 2026-06-02 03:30

功能重要性 8.86 洞察度 6.00

Rust 前端 generate 端点支持 SSE 流式

建议仔细阅读 generate.rs 中的 generate_chunk_stream 和 generate_sse_stream 实现，特别是 asynk_strim_attr 宏的使用、错误用道的设计以及与 completions 端点的相似性。这些实现在后续其他 Rust 路由中可复用。

featurefrontendtest

#41294 [ROCm][CI] Fix and stabilize EAGLE3 acceptance tests

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-02 01:40

缺陷修复重要性 5.71 洞察度 5.00

修复并稳定 ROCm 上 EAGLE3 测试

该 PR 值得精读，尤其是断言语义的调整和 EP 条件判断的设计，展示了如何在测试中平衡严格性与实用性。建议未来审视是否有其他 speculative decoding 测试需要类似处理。

rocmspeculative-decodingv1

#44161 [Kernel][DSv4] Optimize sparse FP8 compressor kernels

原始 PR · 作者 zyongye · 合并时间 2026-06-02 00:18

性能优化重要性 6.05 洞察度 5.00

优化 DSv4 稀疏 FP8 KV 缓存压缩器内核

值得阅读，该 PR 展示了如何通过细致的内核调优（线程映射、寄存器张量、向量化加载）在牺牲少量代码可读性的情况下换取数倍性能提升。对关注高性能 GPU kernel 开发的工程师有启发。

performancekerneldeepseek

2026-06-01

#43992 [Feature] Add support for JetBrains' Mellum v2 code generation model

原始 PR · 作者 shadeMe · 合并时间 2026-06-01 22:11

功能重要性 8.71 洞察度 4.00

新增 JetBrains Mellum v2 代码生成模型支持

该 PR 结构清晰、改动集中，适合作为新模型支持的标准参考。建议简要浏览实现文件，了解 vLLM 添加新模型时需修改的注册点（registry.py、configs/__init__.py、config.py）。

featuremodelmoe

#43706 [Perf] Optimize cutlass fp8 scaled mm bypassing padding, 20% kernel performance improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-06-01 21:05

性能优化重要性 8.15 洞察度 6.00

优化 FP8 矩阵乘法绕过 padding，提升 20% 性能

该 PR 值得维护者精读，展示了一种优雅的 padding 绕过优化模式：通过检查对齐条件选择不同执行路径，并在 `torch.compile` 下使用 `torch.cond` 保持可编译性。同时，review 中的建议进一步优化了完全对齐的情况，体现了合作改进的价值。

performancekernelnvidia

#44146 [XPU][CI] Fix test_audio_in_video flake by using module-scoped server fixture

原始 PR · 作者 chaojun-zhang · 合并时间 2026-06-01 19:21

缺陷修复重要性 3.94 洞察度 3.00

修复XPU上测试音频视频的间歇失败

值得合并。该 PR 修复了 XPU 特定的 CI flake，变更简单且经过审核。对于维护者，建议关注测试 fixture 作用域与隔离性的权衡，但当前方案是合理的。无需深入精读。

bugfixintel-gputest

#43770 [Bugfix] fix wrong partial_rotary_factor calculation for bailing_moe model.

原始 PR · 作者 zzt93 · 合并时间 2026-06-01 17:42

缺陷修复重要性 6.14 洞察度 5.00

修复 Bailing MoE 模型中 partial_rotary_factor 计算错误

值得精读，以了解模型配置优先级处理的常见模式。关注点是：优先使用显式字段（rotary_dim），其次使用派生字段（partial_rotary_factor），最后使用默认回退（head_dim）。该模式可推广到其他模型实现。

bugfixmodelcleanup

#43481 [Rust Frontend] Add InternLM2 tool parser

原始 PR · 作者 willamhou · 合并时间 2026-06-01 16:58

功能重要性 8.45 洞察度 6.00

新增 InternLM2 模型的 Rust 工具调用解析器

建议阅读本 PR 以学习如何系统地将 Python 工具解析器移植到 Rust，特别关注共享配置的演进式扩展、有意行为差异的文档化方法，以及如何使用 `winnow` 组合子实现灵活的 JSON 字段解析。

featurefrontendtool-calling

第 15 / 269 页 · 共 2148 条

上一页 1 … 13 14 15 16 17 … 269 下一页