Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-18 21:16 同步状态:空闲 下次计划:2026-04-18 22:16

PR 列表

已合并 790 · 已分析 790
更多筛选
2026-03-23
缺陷修复 重要性 5.00 洞察度 6.00

修复 responses API 中 arrival_time 记录错误,以准确测量 TTFT。

对于负责性能度量或 API 实现的工程师,建议精读此 PR 以理解 arrival_time 定义的重要性和当前修复。同时,关注 markmc 指出的其他问题,可能需要在后续 PR 中解决。

#32929 [FP8]add FP8 WoQ kernel abstraction.

作者 jikunshang · 合并时间 2026-03-23 17:47

重构 重要性 6.00 洞察度 6.00

为FP8权重仅量化(WoQ)添加内核抽象,集成Marlin内核以支持无FP8硬件的GPU。

建议技术管理者和工程师精读此PR,重点关注内核抽象设计决策(如`init_fp8_linear_kernel`的集中化)和Marlin集成方式,这有助于理解vLLM量化栈的演进方向。同时,需注意review中未完全解决的风险点,如块量化兼容性问题。

缺陷修复 重要性 5.00 洞察度 3.00

修复ROCm AITER ops中fused_moe_fake签名不匹配和其他错误,避免torch.compile崩溃。

这是一个关键bugfix,值得ROCm用户和涉及量化MoE或AITER ops的开发者快速review。建议关注签名匹配的一致性,并检查是否有其他类似签名不匹配问题在代码库中存在。

缺陷修复 重要性 6.00 洞察度 5.00

修复Qwen3.5模型中Triton autotuning缓存不匹配问题,消除推理时的autotuning延迟。

该PR值得精读,特别是对于关注Triton autotuning优化和dtype对齐的工程师。重点关注_warmup_prefill_kernels函数中的dtype匹配设计决策,以及如何通过测试验证性能改进,以应用于其他模型或内核优化场景。

#37810 [Bugfix] Store Qwen3Next A_log in fp32

作者 effortprogrammer · 合并时间 2026-03-23 15:36

缺陷修复 重要性 4.00 洞察度 4.00

修复Qwen3Next模型中A_log参数的精度问题,将其存储为fp32以匹配参考实现。

此PR值得快速浏览以了解精度对齐的决策过程和最小变更原则。对于工程师,关注review中关于dt_bias的讨论,可作为未来类似bugfix的参考案例。整体变更简单,无需深入代码细节,但建议跟进可能的dt_bias更新。

缺陷修复 重要性 5.00 洞察度 3.00

修复JAIS模型中ALiBi无条件应用导致的编码冲突。

对于vLLM开发者和模型工程师,此PR值得快速浏览以理解JAIS模型位置编码的配置逻辑,关注条件判断的实现。对于使用JAIS变体的用户,建议检查配置以确保正确性。由于变更简单,无需深入分析。

参与讨论