← 返回仓库详情

标签聚合

PaddlePaddle/FastDeploy · 标签视图

标签列表

Optimization · 67

bugfix · 55

Feature · 37

OP · 37

CI · 33

test · 31

infra · 30

GPU · 28

Models · 25

Others · 21

APIServer · 18

MoE · 18

Scheduler · 18

Speculative Decoding · 18

KVCache · 17

Refactor · 16

RL · 14

XPU · 14

Engine · 12

Quantization · 11

docs · 10

DataProcessor · 8

Logging · 8

Attention · 6

Benchmark · 3

Graph Optimization · 3

Iluvatar · 3

Loader · 3

FlashInfer · 2

FDConfig · 1

Metax · 1

PD Disaggregation · 1

Security · 1

聚合结果

Scheduler 相关 PR

2026-04-17

#7438 [BugFix] Fix real token exceeding max_batched_tokens limit

作者 freeliuzc · 合并时间 2026-04-17 16:18

缺陷修复重要性 4.96 洞察度 7.00

修复投机解码场景下调度器token预算计算错误，避免显存OOM。

bugfix Scheduler Speculative Decoding Engine

该PR值得精读，重点关注调度器预算计算的设计权衡：为何选择预减而非逐请求扣减？临时下限512的选取依据是什么？建议结合review讨论思考更优方案。

查看完整分析 GitHub 原始 PR

2026-04-15

#7412 [PD Disaggregation] Enable PD deployment without Router

作者 juncaipeng · 合并时间 2026-04-15 20:13

功能重要性 7.20 洞察度 5.00

支持PD分离部署无需路由器，放宽配置限制并新增测试验证。

Feature Scheduler Engine test

该PR值得精读，特别是配置松耦合的设计决策（如`init_pd_info`逻辑调整）和测试模拟无路由器部署的方法。建议关注并发处理优化和兼容性权衡，以指导类似部署场景的实现。

查看完整分析 GitHub 原始 PR

#7407 [BugFix][Scheduler]Fix FD_DISABLE_CHUNKED_PREFILL max_num_batched_tokens limit

作者 chang-wenbin · 合并时间 2026-04-15 15:55

缺陷修复重要性 4.16 洞察度 4.00

修复禁用分块预填充时批处理令牌数限制，允许使用最大模型长度。

bugfix Scheduler Engine

该PR是调度器配置的关键修复，值得精读以理解环境变量如何影响批处理限制。重点关注FD_DISABLE_CHUNKED_PREFILL与ENABLE_V1_KVCACHE_SCHEDULER的交互逻辑，以及EngineArgs和FDConfig的同步修改设计。

查看完整分析 GitHub 原始 PR

2026-04-14

#7364 [BugFix][PD Disaggregation][KVCache] Fix low cache hit rate in PD split (disaggregation) scenario

作者 kevincheng2 · 合并时间 2026-04-14 16:15

缺陷修复重要性 6.00 洞察度 5.00

修复PD分离场景下prefill节点未及时更新prefix cache命中信息导致的低命中率问题。

bugfix KVCache Scheduler Engine

该PR值得精读，特别是关注prefill节点在PD分离架构中的cache状态管理设计。建议重点关注：1. update_cache_blocks参数选择的权衡（need_prefill_tokens vs num_computed_tokens）及其对cache一致性的影响；2. PD分离模式下prefill与decode节点职责划分的边界设计。

查看完整分析 GitHub 原始 PR

2026-04-13

#7323 [Speculative Decoding] Support mtp super ultra overlap in pd-split mode with insert_task overlap

作者 freeliuzc · 合并时间 2026-04-13 19:41

性能优化重要性 7.00 洞察度 7.00

支持PD分离模式下MTP超重叠优化，通过异步写入减少GPU同步，提升解码性能10%~15%。

Speculative Decoding Optimization Scheduler

建议精读以了解异步优化在高速推理系统中的实现细节，重点关注async_set_value函数的设计、平台适配策略以及review中讨论的技术权衡。同时，注意未完全解决的兼容性风险和测试覆盖缺口。

查看完整分析 GitHub 原始 PR

2026-04-10

#7300 [BugFix] Fix mtp empty run issue in overlap schedule and EP model

作者 Sunny-bot1 · 合并时间 2026-04-10 18:29

缺陷修复重要性 4.00 洞察度 3.00

修复overlap调度模式下MTP空输入未执行问题，确保EP模型行为一致。

bugfix Scheduler Engine

该PR值得快速浏览，以了解overlap schedule模式下MTP空输入处理的修复逻辑。重点关注条件判断的完整性和与execute_model_normal的一致性。由于缺少测试覆盖，建议后续补充相关单元测试。

查看完整分析 GitHub 原始 PR

2026-04-03

#7141 [BugFix] prevent requests from entering running state without a slot

作者 liyonghua0910 · 合并时间 2026-04-03 14:07

缺陷修复重要性 6.00 洞察度 5.00

修复调度器在请求状态转换时槽位计数不一致的bug，防止请求无槽位进入运行状态。

bugfix Scheduler Optimization

该PR值得精读，特别是对于负责调度器模块的工程师。重点关注resource_manager_v1.py中新的槽位计数逻辑设计，这是调度器正确性的关键保障。建议结合近期调度器相关的PR（如#7152、#7129）一起阅读，理解调度器状态的完整演进。

查看完整分析 GitHub 原始 PR

#7152 [Feature] Support chunk prefill disabled in scheduler v1

作者 rainyfly · 合并时间 2026-04-03 10:18

功能重要性 5.00 洞察度 4.00

在调度器V1中支持通过环境变量禁用分块预填充功能。

Feature Scheduler Optimization

该PR值得关注，因为它触及了调度器资源分配的核心逻辑。建议精读以理解分块预填充的禁用机制如何集成到现有流程中，并思考其设计意图。重点关注：1. 环境变量驱动的特性开关设计模式；2. 条件检查在分配循环中的位置及其对控制流的影响；3. 与现有分块逻辑的交互。同时，建议补充测试以确保新分支的健壮性。

查看完整分析 GitHub 原始 PR

第 1 / 3 页 · 共 18 条

1 2 3 下一页