Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 21:47 同步状态：空闲下次计划：2026-06-13 22:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#37820 [Bugfix] JAIS: Only apply ALiBi when position_embedding_type='alibi'

原始 PR · 作者 r266-tech · 合并时间 2026-03-23 15:36

缺陷修复重要性 5.00 洞察度 3.00

修复JAIS模型中ALiBi无条件应用导致的编码冲突。

对于vLLM开发者和模型工程师，此PR值得快速浏览以理解JAIS模型位置编码的配置逻辑，关注条件判断的实现。对于使用JAIS变体的用户，建议检查配置以确保正确性。由于变更简单，无需深入分析。

bugfixjaismodel

#36505 [ROCm][Refactor] Enable AWQMarlinConfig on ROCm to use choose_mp_linear_kernel

原始 PR · 作者 mgehre-amd · 合并时间 2026-03-23 15:36

重构重要性 6.00 洞察度 7.00

重构ROCm上AWQMarlinConfig以使用choose_mp_linear_kernel，显著提升AWQ模型性能。

该PR值得精读，尤其是AWQ到标准格式的转换逻辑和平台抽象设计，对于理解vLLM中量化内核框架的集成有参考价值。

rocmrefactorperformance

#37851 update doc for online fp8 quantization

原始 PR · 作者 yma11 · 合并时间 2026-03-23 13:19

文档重要性 2.00 洞察度 2.00

更新FP8在线量化文档，移除内存警告。

此 PR 不值得深入阅读，除非关注 FP8 量化文档更新。管理者可快速批准此类维护性变更。

documentationfp8

#35963 [Feature] ViT Full CUDA Graph

原始 PR · 作者 b-mu · 合并时间 2026-03-23 13:01

功能重要性 7.00 洞察度 8.00

为ViT编码器添加完整CUDA图支持，减少内核启动开销，提升多模态推理性能。

该PR值得精读，特别是`SupportsEncoderCudaGraph`协议的设计，展示了如何抽象模型特定逻辑以实现通用优化。关注`EncoderCudaGraphManager`中的贪婪装箱算法（减少图数量）和数据并行支持（负载均衡），这些设计决策对性能优化有重要借鉴意义。

performancecudagraphmulti-modality

#37816 [CI/Build][LoRA] Update Qwen35 LoRA testing

原始 PR · 作者 jeejeelee · 合并时间 2026-03-23 12:55

测试重要性 4.00 洞察度 2.00

更新 Qwen3.5 LoRA 测试，修复文件名 typo 并扩展视觉语言测试覆盖。

该 PR 值得精读，尤其关注测试设计决策，如多模态测试的集成方式和夹具重构。建议工程师在合并后验证 fully_sharded_loras 测试覆盖情况，以确保 LoRA 功能完整性。

qwentestmodel

#37834 [Test] Consolidate tool parser unit tests to tests/tool_parsers

原始 PR · 作者 bbrowning · 合并时间 2026-03-23 12:24

测试重要性 4.00 洞察度 3.00

将工具解析器单元测试移动至 tests/tool_parsers 目录，分离单元测试与集成测试。

建议工程师快速浏览此 PR 以了解测试目录结构调整，但无需深入分析代码逻辑。重点关注 test_granite4_tool_parser.py 中流式测试的潜在问题，可在后续 PR 中修复。

testrefactor

#37632 always use `embed&token_classify` for bge-m3

原始 PR · 作者 staugust · 合并时间 2026-03-23 11:10

重构重要性 5.00 洞察度 5.00

bge-m3 插件统一使用 `embed&token_classify` 任务处理所有 pooling 请求，简化代码并弃用多任务支持。

此 PR 值得精读，展示了如何在服务限制下重构插件逻辑，学习设计权衡和简化策略，对于工程师理解多任务弃用背景有价值。

refactorbugfixmodel

#37643 Fix AudioFlamingo3/MusicFlamingo HF parity and RoTE handling

原始 PR · 作者 lashahub · 合并时间 2026-03-23 10:29

功能重要性 6.00 洞察度 6.00

修复 AudioFlamingo3 和 MusicFlamingo 模型实现，对齐 Hugging Face 参考行为并支持 RoTE 处理。

建议技术管理者和工程师精读此 PR，重点关注 MusicFlamingo 独立实现的设计决策（如 RoTE 集成和 prompt 扩展机制），以及如何通过测试确保 HF 对等性。同时，关注风险分析中提及的兼容性问题，评估 transformers 版本升级计划。

modelfeaturebugfix

第 307 / 312 页 · 共 2496 条

上一页 1 … 305 306 307 308 309 … 312 下一页