Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 10:16 同步状态:空闲 下次计划:2026-04-19 11:16

PR 列表

已合并 794 · 已分析 794
更多筛选
2026-03-27
缺陷修复 重要性 6.00 洞察度 6.00

修复 Hermes 工具解析器在流式处理间隔大于 1 时的解析错误。

该 PR 值得精读,特别是新的 diff-based 解析策略,可用于理解和设计流式解析器。建议关注 `extract_tool_calls_streaming` 方法的实现,以及如何通过文本 diff 和状态追踪避免复杂状态机,同时留意测试用例以验证各种边界情况。

重构 重要性 6.00 洞察度 6.00

将 FusedMoE 层的 hidden_size 和 intermediate_size 对齐逻辑重构到 quant_method,提升架构清晰度和性能。

建议工程师精读此 PR 以理解量化方法在尺寸对齐中的新角色,关注 mxfp4.py 和 quark_moe.py 中的实现差异,以及讨论中关于性能权衡的决策。

#38219 [CPU] Support CT W4A16 on CPU MP kernel

作者 bigPYJ1151 · 合并时间 2026-03-27 14:15

功能 重要性 6.00 洞察度 5.00

在CPU混合精度线性内核中支持CT W4A16量化格式。

建议工程师精读此PR,重点关注`_process_gptq_weights`函数中的CT格式检测和转置逻辑,以及内存优化讨论。对于技术管理者,值得了解量化支持的扩展方向,并跟踪内存风险的处理进展。

重构 重要性 6.00 洞察度 5.00

将GatedDeltaNetAttention提取为共享层,统一Qwen3Next和Qwen3.5实现。

该PR值得精读,因为它展示了如何参数化共享层以处理模型差异,并涉及跨平台兼容性设计。建议关注fix_query_key_value_ordering的修复、共享层参数化设计,以及review中关于forward_native的讨论。

#38262 [frontend] dump openai responses type by alias

作者 cjackal · 合并时间 2026-03-27 13:58

缺陷修复 重要性 5.00 洞察度 4.00

修复OpenAI responses API序列化中字段别名处理,确保与OpenAI库兼容。

建议关注此PR的讨论点,了解Pydantic序列化中返回类型一致性的重要性。对于工程师,可精读serialize_message函数以识别类似潜在不一致问题;对于管理者,变更已合并但存在未解决疑虑,需监控相关bug报告。变更简单,适合快速review。

功能 重要性 6.00 洞察度 7.00

扩展KV缓存卸载连接器以支持混合模型,引入CanonicalKVCaches类并拆分测试。

建议技术管理者和工程师精读此PR,重点关注`CanonicalKVCaches`类的设计决策,它展示了如何统一处理异构KV缓存布局。同时,注意review中提到的dtype不一致问题,在后续开发中需确保一致性。对于代码简化,可考虑在future PR中重构。

参与讨论