更新文档,将GLM-5模型纳入DeepSeek V3.2使用指南并补充配置说明。
该PR是简单的文档更新,无需精读代码。建议关注文档中关于GLM-5与DeepSeek V3.2共享DSA结构但推理解析器和工具调用解析器不同的说明,这对用户正确配置模型有指导意义。
SGLang is a high-performance serving framework for large language models and multimodal models.
更新文档,将GLM-5模型纳入DeepSeek V3.2使用指南并补充配置说明。
该PR是简单的文档更新,无需精读代码。建议关注文档中关于GLM-5与DeepSeek V3.2共享DSA结构但推理解析器和工具调用解析器不同的说明,这对用户正确配置模型有指导意义。
原始 PR · 作者 yeahdongcn · 合并时间 2026-04-05 18:12
为扩散模型平台抽象添加 float64 支持检测 API,并替换硬编码检查以提升跨平台一致性。
建议精读此 PR,以学习如何抽象平台特定功能并统一代码库中的条件逻辑。关注 is_float64_supported 和 is_amp_supported 的设计,以及在不同模型文件中的替换策略。
为DeepSeek V3.2模型启用IndexCache优化,提升推理性能。
该PR值得精读,特别是对于从事模型优化和注意力机制开发的工程师。重点关注skip_topk逻辑的设计决策、索引复用的实现细节以及性能与精度的权衡。同时,注意review中讨论的测试最佳实践和代码修正点。
修复夜间测试的多个不稳定和配置问题,提升CI可靠性。
建议关注CI测试维护的工程师精读此PR,了解如何识别和修复不稳定测试;对于核心模型或内核开发者,可快速浏览以知晓测试环境变化。
将推理相关测试整合到统一目录,减少CI服务器启动次数。
建议阅读此PR以了解测试架构的改进模式,特别是混合类设计。重点关注review中讨论的测试覆盖和错误处理问题,作为后续测试优化的参考点。
修复FLUX.1和FLUX.2模型中guidance_embedder权重加载和guidance_scale缩放问题,对齐HuggingFace Diffusers。
建议技术管理者和工程师精读denoising.py中的_build_guidance()修改和flux.py中的配置重构,关注如何通过条件判断区分FLUX.1和FLUX.2的逻辑。这些变更体现了在兼容不同模型版本时的设计权衡,值得学习其模块化处理和一致性对齐策略。
新增Voxtral语音转文本模型支持,扩展SGLang多模态能力。
建议技术管理者和工程师精读此PR,重点关注:1. 如何集成新模型架构到SGLang框架。2. 多模态处理器设计,特别是处理HF限制时的变通方案。3. tokenizer兼容性补丁的实现细节,这对未来集成类似模型有借鉴意义。
将推理令牌测试迁移到现有服务器fixtures,减少CI服务器启动次数。
建议:该PR展示了测试重构和CI优化的有效模式,值得关注`ReasoningTokenUsageMixin`的设计和混入策略。阅读者应检查测试覆盖率是否足够,并考虑未来恢复`/generate` API测试以增强验证严格性。
参与讨论