Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

multimodal 相关 PR

2026-06-07
2026-06-05
功能 重要性 9.00 洞察度 5.00

为 multimodal_gen 添加 Ideogram 4 FP8 文生图支持

值得精读。该 PR 展示了在 SGLang 框架中系统性地添加新扩散模型的完整流程,包括配置、模型、pipeline 和测试,尤其是通过继承基类减少重复代码和共享工具函数的设计思路值得学习。

#27327 Fix MMMU VLM eval max_tokens for CoT prompt

原始 PR · 作者 yhyang201 · 合并时间 2026-06-05 10:28

缺陷修复 重要性 3.81 洞察度 2.00

修复 MMMU VLM 评估 max_tokens 过短导致全部失败

建议合入。这是一个有明确回归根因的测试修复,变更量极小,且已在 H200 上验证所有模型通过阈值。合并后应观察夜间测试是否稳定通过。

2026-06-03
功能 重要性 9.12 洞察度 6.00

支持 Gemma4 Unified 编码器自由多模态模型

值得精读,特别是研究如何在不重构核心架构的前提下,通过继承和轻量投影支持新多模态模型的设计模式。MTP 投机解码的集成方式也值得参考。建议在合并后关注 CI 结果,并补充性能基准测试。

#26106 Support Command A plus

原始 PR · 作者 zijiexia · 合并时间 2026-06-03 11:23

功能 重要性 9.18 洞察度 6.00

Cohere Command A Plus 模型推理支持

该 PR 值得精读,特别是自定义 Centered LayerNorm、sigmoid topk 路由、混合 MoE 后端分派策略以及推理/工具调用解析器的状态机设计。对于想扩展新模型支持的开发者,这是很好的参考模式。建议后续增加测试覆盖。

2026-06-02
功能 重要性 6.85 洞察度 6.00

Cosmos3 文本处理对齐官方 packed-text

建议精读本 PR,特别是理解 packed-text 对齐如何影响扩散模型的 UND 通路与生成质量。这是 Cosmos3 功能正确性的关键修复,值得关注。

功能 重要性 7.23 洞察度 5.00

可选调用方提供 mm_hashes 以实现确定性 pad_value

值得精读。该 PR 展示了如何在复杂系统中添加可选调用方集成接口:清晰的文档、优雅的错误处理和完备的单元测试。设计上对十六进制字符串的选择是有远见的。