Cosmos3 文本处理对齐官方 packed-text
建议精读本 PR,特别是理解 packed-text 对齐如何影响扩散模型的 UND 通路与生成质量。这是 Cosmos3 功能正确性的关键修复,值得关注。
SGLang is a high-performance serving framework for large language models and multimodal models.
Cosmos3 文本处理对齐官方 packed-text
建议精读本 PR,特别是理解 packed-text 对齐如何影响扩散模型的 UND 通路与生成质量。这是 Cosmos3 功能正确性的关键修复,值得关注。
可选调用方提供 mm_hashes 以实现确定性 pad_value
值得精读。该 PR 展示了如何在复杂系统中添加可选调用方集成接口:清晰的文档、优雅的错误处理和完备的单元测试。设计上对十六进制字符串的选择是有远见的。
修复VLM token-id请求的重分词漂移问题
值得精读。该 PR 解决了 RL 训练中一个隐蔽但严重的不一致问题,设计方案清晰:通过可覆盖方法分离计数逻辑,核心路径保留 fallback。建议关注后续对 video/audio 的扩展以及 Kimi 模型的端到端测试补充。
改进 Cosmos3 服务 API,支持 vLLM-Omni 风格参数与同步视频端点
该 PR 值得精读,尤其设计决策如使用 model_extra 传递额外参数以保持协议稳定性、同步视频端点的轮询实现、以及 guardrail 逐请求控制。建议关注 review 中未解决的问题(flow_shift 安全访问、资源泄漏)是否在后续修复。
PNG 输出改用 Pillow 并降低压缩级别加速
值得快速合并。变更是局部化、可回退、测试覆盖完善(新增 68 行测试)。设计决策清晰:对 PNG 专用路径优化,不改动其他格式;压缩级别暴露给用户并可配置。
插入时分割SWA叶子,锁定仅占一个滑动窗口
该 PR 值得仔细阅读,特别是 `_maybe_split_leaf_for_swa_lock` 的设计:通过插入时立即裁剪来防止锁定长叶子过度占用 SWA 池,是一种简洁有效的资源治理策略。对于关注 SWA 或统一缓存的开发者,理解此模式有助于在其他类似场景中复用。
重写 NIXL HiCache,增加 O_DIRECT 支持及 mmap 分配器
该 PR 值得仔细审查,特别是 `nixl_registry.py` 中的上下文管理器设计模式和 `mmap_allocator.py` 中 HugePage 的支持实现。建议团队阅读其异常处理策略和对齐检查逻辑,可作为高可靠 I/O 后端的参考。合入前需确认 AMD/NPU 环境 CI 通过,不过当前 CI 结果均为绿色(除不相关的失败)。
允许 dit-cpu-offload 与 layerwise 共同启用
值得合并。修复了关键的启动失败问题,且测试覆盖完整。建议阅读 `server_args.py` 中 `_adjust_layerwise_offload_components` 和 `_disable_non_dit_cpu_offload_for_layerwise_components` 的变更,理解设计权衡。
参与讨论