Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 05:34 同步状态:空闲 下次计划:2026-06-04 06:34

PR 列表

更多筛选
2026-06-03
功能 重要性 7.66 洞察度 5.00

启用 ROCm 的 per-token-group 量化内核

值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。

支持推理模型基准测试的思考模式

该 PR 值得精读,特别是对负责基准测试和推理性能分析的工程师。其设计简洁、聚焦,通过最小的 CLI 改动解决了一个实际的基准测试盲区。建议关注后续是否扩展支持更多数据集。

缺陷修复 重要性 5.83 洞察度 4.00

修复 tool_call arguments 为 "null" 字符串时的崩溃

此 PR 值得合并,问题定位清晰,修复方式简单安全,测试充分。对于关注工具调用稳定性的团队,可直接参考此修复。

#44293 Nit Changes in Tiered KV Offload

原始 PR · 作者 rshavitt · 合并时间 2026-06-03 12:53

文档 重要性 4.22 洞察度 2.00

为 FS Tier Manager 添加跨进程共享文档

此 PR 为小范围文档改进,理解价值有限。但其中关于 `PYTHONHASHSEED` 的说明对于理解 vLLM 跨实例 KV 缓存共享机制有参考意义。

参与讨论