修复Responses API中previous_response_id导致instructions泄漏的问题
该PR值得精读,特别是对于处理OpenAI兼容API的开发者。关注点: 1. 理解OpenAI Responses API中instructions参数的设计意图 2. 学习如何正确处理跨请求的消息历史管理 3. 参考新增的测试用例,了解如何全面测试此类边界条件
A high-throughput and memory-efficient inference and serving engine for LLMs
修复Responses API中previous_response_id导致instructions泄漏的问题
该PR值得精读,特别是对于处理OpenAI兼容API的开发者。关注点: 1. 理解OpenAI Responses API中instructions参数的设计意图 2. 学习如何正确处理跨请求的消息历史管理 3. 参考新增的测试用例,了解如何全面测试此类边界条件
为 rerank 和 score 请求添加 max_tokens_per_doc/query 参数,支持文档/查询独立截断以对齐 Cohere/Jina API。
该 PR 值得精读,重点关注 io_processor.py 中的截断策略设计(三种模型路径处理)、protocol.py 的继承重构以消除重复代码,以及测试中参数化 fixture 的优化模式。这些决策展示了在兼容性和性能间的权衡。
修复 GLM 工具解析器在流式传输和推测解码下的参数格式错误。
该 PR 值得精读,特别是 `_extract_content` 和 `_build_args_json_so_far` 方法的设计,展示了从状态机到无状态解析的转换如何解决流式处理挑战。关注 `partial_tag_overlap` 函数的实现,它在处理部分标签时起到关键作用,可借鉴于类似流式解析场景。
原始 PR · 作者 1643661061leo · 合并时间 2026-04-13 12:51
扩展环境收集脚本以支持Intel XPU,优化信息分类与显示。
建议技术管理者关注此PR中包检测函数的设计,了解其潜在改进点;工程师可精读get_pkg_version()的实现,学习如何处理多包管理器适配,并注意条件输出逻辑如何优雅处理平台差异。
重命名 affine score calibration 参数为 logit_mean/logit_sigma 以对齐 LayerNorm 约定,确保向后兼容。
此 PR 值得精读,特别是对于涉及池化模型和配置管理的开发者。关注 `PoolerConfig.__post_init__` 中的弃用处理逻辑和池化头中 out-of-place 操作的设计决策,以学习如何安全地进行 API 重命名和向后兼容策略。
原始 PR · 作者 maobaolong · 合并时间 2026-04-13 11:29
修复LMCache MP连接器中缓存请求的KV存储逻辑和令牌计数错误。
该PR值得精读,特别是对于涉及LMCache和KV连接器模块的开发者。关注点:1. 如何正确处理缓存请求的增量令牌计数;2. LMCache命中块在存储计算中的纳入逻辑,体现了KV存储的边界处理设计。
原始 PR · 作者 EricccYang · 合并时间 2026-04-13 10:58
优化fused qknorm+rope kernel,通过动态调整每个warp的token-head数量,提升H100上大批次推理性能。
建议技术管理者和工程师精读此PR,重点关注多token-head kernel的设计思路、cp.async异步复制技术,以及动态阈值调度策略,这些对高性能CUDA编程和kernel优化有重要借鉴价值。
移除AOT编译与批不变模式的互斥限制,允许两者同时启用。
该PR变更简单直接,适合快速浏览以了解编译与批不变模式的兼容性改进。值得关注的设计决策是移除了未经验证的互斥限制,体现了对功能成熟度的信心。建议结合测试结果和后续使用反馈评估实际效果。
参与讨论