Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

run-ci 相关 PR

2026-04-18

#22169 [main] chore: add bias for base layer with lora

作者 gongyisheng · 合并时间 2026-04-18 17:07

缺陷修复 重要性 5.06 洞察度 5.00

为 LoRA 基类添加 bias 属性,修复权重同步时 Qwen2 模型输出错误。

lora bugfix run-ci

该 PR 值得精读,因为它揭示了 LoRA 包装层与权重同步机制间的微妙交互。关注 `BaseLayerWithLoRA` 如何通过属性反射确保 `named_parameters()` 完整性,这是支持动态权重更新的关键设计决策。

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

作者 BBuf · 合并时间 2026-04-18 09:06

功能 重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。

feature diffusion quant performance run-ci

该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。

#23110 Clean up bench_one_batch warning and simplify norm dispatch

作者 merrymercy · 合并时间 2026-04-18 08:42

重构 重要性 5.64 洞察度 3.00

清理基准测试警告并简化归一化函数分发逻辑,提升代码清晰度。

sgl-kernel run-ci refactor

该PR值得快速浏览,重点关注归一化函数分发逻辑的简化方式,这是一种常见的代码优化模式;对于涉及设备特定逻辑(如musa)的清理,可思考是否在其他地方有类似遗留代码需要统一处理。

重构 重要性 8.76 洞察度 6.00

重构MoE Triton runner路径,提取共享助手以消除代码重复。

refactor moe performance run-ci

该PR值得精读,特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异(CUDA/HIP/XPU)、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。

#23108 Update CI_PERMISSIONS

作者 jybsuper · 合并时间 2026-04-18 07:53

基础设施 重要性 2.97 洞察度 1.00

将贡献者 jybsuper 加入 CI 权限配置文件,支持 LoRA 相关任务。

run-ci infra

此 PR 变更简单明了,无需深入技术分析。对于希望了解项目 CI 权限管理机制的工程师,可以快速浏览 `.github/CI_PERMISSIONS.json` 文件的结构。对于大多数开发者,无需精读。

#21509 [MLX] Support radix cache

作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能 重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。

feature mlx performance kv-cache run-ci

该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。

#23103 Apply HF transformers patches from sglang init

作者 hnyls2002 · 合并时间 2026-04-18 06:37

缺陷修复 重要性 6.96 洞察度 5.00

在 sglang 导入时尽早应用 transformers monkey-patches,彻底修复 CI 中因 Hugging Face API 调用导致的 429 速率限制问题。

bugfix dependencies run-ci consistency

推荐所有维护者和涉及 Hugging Face 集成的开发者精读此 PR,重点关注 `apply_all()` 中的设计权衡(急切 vs 惰性补丁、前端兼容性处理)和导入重构模式(文件重命名以避免模块膨胀),这些决策在管理第三方依赖升级和跨模块一致性方面具有参考价值。

#23010 Merge /get_load into /v1/loads

作者 hnyls2002 · 合并时间 2026-04-18 04:36

重构 重要性 8.23 洞察度 5.00

合并 /get_load 到 /v1/loads,统一负载报告路径并弃用旧端点。

refactor model-gateway run-ci observability

该 PR 值得精读,尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括:在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数,以及通过垫片保留旧 API 的平滑迁移路径。