#37920 [Bugfix] Pass hf_token through config loading paths for gated model support
原始 PR · 作者 javierdejesusda · 合并时间 2026-03-25 03:22
修复 hf_token 在配置加载路径中未传递的 bug,支持 gated models 的显式 token 认证。
该 PR 值得快速浏览,关注 `hf_token` 参数如何在三个关键路径中传递,学习系统性地修复参数遗漏问题。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 javierdejesusda · 合并时间 2026-03-25 03:22
修复 hf_token 在配置加载路径中未传递的 bug,支持 gated models 的显式 token 认证。
该 PR 值得快速浏览,关注 `hf_token` 参数如何在三个关键路径中传递,学习系统性地修复参数遗漏问题。
修复 VLLM_USE_STANDALONE_COMPILE=0 的编译 bug,并添加测试以确保正确性。
推荐对编译模块或 PyTorch 集成感兴趣的工程师精读此 PR,以了解 FakeTensorMode 和 tracing context 的陷阱,并关注私有 API 使用和弃用路径的决策权衡,有助于在类似场景下做出技术选择。
修复 AOT 编译加载日志顺序,确保计数和日志只在缓存命中时更新。
这是一个小范围的 bugfix,代码变更简单明了,建议快速 review 并合并。对于工程师,可关注日志顺序调整的设计,但无需深度精读,除非涉及编译系统调试。
添加 Granite 4.0 1B speech 模型到 vLLM 支持列表,并提供测试覆盖。
建议工程师阅读此 PR 以了解如何在 vLLM 中添加新模型,特别是测试适配和文档更新模式。但变更相对简单,无需深度研究;可关注语言列表的潜在风险,考虑未来动态验证改进。
修复CPU部署中结构化输出因pin_memory=True导致的崩溃。
对于涉及CPU部署或结构化输出功能的工程师,推荐阅读此PR以理解设备检测和内存优化的最佳实践;对技术管理者,可关注代码审查过程中的设计权衡如何提升代码质量。
原始 PR · 作者 vineetatiwari27 · 合并时间 2026-03-25 01:35
修复 pooling 模型文档中离线推理示例的路径错误。
这是一个简单的文档修复 PR,无需深入技术分析。值得关注的是验证过程和范围控制,以体现维护者审慎处理文档变更的态度。对于工程师,可以快速浏览以了解如何修正路径错误,并检查是否有类似问题在其他文档中。
原始 PR · 作者 minosfuture · 合并时间 2026-03-25 01:30
修复Mamba状态损坏,清除陈旧block table条目。
建议工程师精读此PR,特别是block_table.py的clear_row实现和gpu_model_runner.py的_dummy_run同步逻辑,以理解DP和CUDA图中状态管理的设计权衡。
修复CLI强制使用统计标志未启用连续使用统计的bug。
建议快速浏览以理解修复逻辑,特别是`should_include_usage()`函数的变更。对于负责entrypoints模块或前端测试的工程师,值得关注回归测试的设计,以确保覆盖所有相关场景。
参与讨论