Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

qwen 相关 PR

2026-04-17

#40090 [Bugfix] Fix empty delta detection in Qwen3XMLToolParser streaming

作者 chaunceyjiang · 合并时间 2026-04-17 21:34

缺陷修复 重要性 5.31 洞察度 4.00

修复 Qwen3XML 工具解析器在流式输出中空 delta 检测逻辑,避免产生不符合 OpenAI 规范的 delta 消息。

bugfix tool-calling qwen v1

该 PR 代码变更简洁,聚焦于特定 bugfix,适合快速浏览以理解工具解析器流式输出的规范遵循问题。值得关注的设计决策是:在空 delta 检测中未包含 role 字段检查,这可能是一个有意为之的简化,但 reviewer 指出的潜在风险值得在后续开发中留意。

2026-04-16

#38300 [Speculative Decoding] Add DFlash speculators config parsing

作者 ZhanqiuHu · 合并时间 2026-04-16 04:22

功能 重要性 8.12 洞察度 5.00

添加DFlash speculators配置解析,支持直接加载speculators训练的DFlash模型。

speculative-decoding v1 qwen feature test

建议工程师精读`update_dflash`函数以理解配置映射机制,这是扩展speculators支持的关键模式;并关注`qwen3_dflash.py`中的条件初始化策略,这是内存优化的设计决策。测试文件提供了完整的端到端验证示例,值得参考以了解DFlash speculators的正确性测试方法。

2026-04-14

#38061 [MM][Perf][CG] Support ViT full CUDA graph for Qwen3-VL video inference

作者 shen-shanshan · 合并时间 2026-04-14 16:49

功能 重要性 7.00 洞察度 6.00

扩展ViT全CUDA图支持到Qwen3-VL视频推理,提升多模态编码性能。

v1 multi-modality performance cudagraph qwen

建议技术管理者和工程师精读此PR,以理解CUDA图在多模态编码中的扩展设计。重点关注`get_input_modality`方法实现、`max_frames_per_batch`参数处理,以及review中讨论的权衡决策(如缓存移除和命名更改),这些对类似性能优化和协议设计具有借鉴意义。同时,关注后续PR中混合输入支持的演进。

2026-04-10
2026-04-09

#39268 [Tests] Add Qwen3-VL multimodal memory leak check

作者 lalit10 · 合并时间 2026-04-09 19:54

测试 重要性 4.00 洞察度 5.00

新增Qwen3-VL多模态模型内存泄漏检测测试,提升稳定性验证。

test multi-modality qwen

对于关注多模态模型测试或内存管理的工程师,此PR值得精读,以学习如何设计内存泄漏检测测试和权衡阈值设置。重点关注测试逻辑中的内存测量方法和泄漏检测策略。

#39181 [Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next

作者 USTCKAY · 合并时间 2026-04-09 05:47

缺陷修复 重要性 5.00 洞察度 3.00

修复Qwen3.5/Qwen3-Next在序列并行下共享专家权重分片导致的精度问题。

bugfix model qwen v1

该PR值得快速浏览,重点关注SharedExpert中disable_tp参数的传递逻辑,以及is_sequence_parallel如何与现有并行配置集成。对于从事模型并行或MoE开发的工程师,可学习如何正确处理序列并行下的专家权重分片。建议检查其他MoE模型是否有类似问题。

2026-04-08

#38848 [Bugfix] Fix Qwen3 tool parser for Responses API tools

作者 sfeng33 · 合并时间 2026-04-08 10:08

缺陷修复 重要性 6.00 洞察度 6.00

修复 Qwen3 工具解析器对 Responses API 工具的支持,确保参数类型正确解析。

bugfix tool-calling qwen responses-api v1

该 PR 值得精读,因为它展示了如何通过共享工具函数解决 API 兼容性问题,并涉及规范遵循与灵活性的权衡。建议关注 `find_tool_properties` 的设计决策、测试覆盖的讨论以及工具解析模块的统一化趋势。

2026-04-06

#38997 [Bug] Fix Import paths for `encoder_cudagraph` modules

作者 Gregory-Pereira · 合并时间 2026-04-06 03:11

缺陷修复 重要性 4.00 洞察度 3.00

修复cudagraph_mm_encoder启用时因模块导入路径错误导致的ModuleNotFoundError。

bugfix v1 qwen cudagraph multi-modality

该PR值得快速浏览以了解cudagraph_mm_encoder功能的基础架构。重点关注: 1. encoder_cudagraph相关模块的组织结构。 2. Qwen3-VL模型如何实现SupportsEncoderCudaGraph协议。 3. 导入路径一致性在大型项目中的重要性。