PaddlePaddle/FastDeploy v2.5.0
PaddlePaddle/FastDeploy
Captured source
source ↗published Apr 9, 2026seen 5dcaptured 15hhttp 200method plain
v2.5.0
Repository: PaddlePaddle/FastDeploy
Tag: v2.5.0
Published: 2026-04-09T06:26:05Z
Prerelease: no
Release notes:
FastDeploy Release 2.5 Release Note
新增功能
新模型支持
- 新增Qwen3-VL模型部署支持 #5763
- 新增Qwen3-VL MoE模型部署支持 #5913
- 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
- 新增GLM模型TP+DP+EP支持 #6317
新量化方法支持
- 新增W4AFP8量化方法支持(v1_loader和v0_loader,支持TP>1) #5757
- 新增NVFP4 MoE在SM100上的支持 #6003
- 新增FusedMoE在Blackwell上的支持 #5325
- 新增统一量化算子 #5991
- 新增FP8量化环境变量FD_USE_PHI_FP8_QUANT支持 #6320
- 新增Weight Only量化方法对QKVGate_proj的支持 #6669
PD分离相关功能
- 新增多模态模型P/D分离支持 #5323
- 新增PD分离部署配置简化和端口管理重构 #5415
- 新增PD分离支持动态C8 IPC #5750
- 新增PD分离RDMA动态C8支持 #5788
CUDA Graph相关功能
- 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962
- 新增reorder ids以分离prefill和decode请求的支持 #5779
- 新增full_cuda_graph控制子图切分 #6027
- 新增max_capture_shape_prefill和cudagraph_capture_sizes_prefill配置 #6148
- 支持CUDAGraph用于P/PD混合Batch,采用SOT子图切分模式 #6196
- Cuda graph模式下跳过ATTN padding部分计算 #5985
RL训练相关功能
- 新增Rollout Routing Replay支持 #5405
- 新增V1 update/clear API for RL支持 #6974
- 新增Thinking Pattern框架优化 #4302
- 新增限制thinking内容长度的CUDA算子统一,支持回复长度限制与注入序列 #6511
- R3支持RDMA Store #5467
- 支持通过load_weights函数加载权重 #5549
- 新增pause、update_weights、resume异步RL接口 #6052
- 支持GLM MTP RL Model #6223 #6267
- R3支持全层路由Fused Put #6099
- 支持SM100 FP8量化 #6602
- 支持moe_topk_select Paddle原生算子及FP8 MoE量化 #6935
KV Cache相关功能
- 新增KV Cache存储支持 #5571
- 新增attention_store KV Cache后端支持 #5823
- 新增file_store KV Cache后端支持 #6188
- 新增通过attention store上报token index支持 #6285
- 新增RDMACommunicator发送key和value scale支持 #5737
- 新增get_output_kv_signal阻塞读取模式和send_first_token支持 #5836
新API/接口支持
- 新增stop_token_ids支持 #5399
- 新增logprobs/prompt_logprobs token解码开关 #5463
- 新增请求级投机解码指标监控支持 #5518
- 新增健康检查功能 #5534
- 新增请求级延迟细粒度追踪(Tracing Part1) #5458
- 新增Entropy计算支持 #5692 #5730
- 新增输出缓存默认启用 #5987
- 新增tag phase token enforce生成支持 #6034
- 新增SWA基于appendattn的支持 #6594
- plugin模型支持mm_processor_kwargs #6491
- 新增多模态模型dummy run支持 #6045
- 新增Norm before Rope支持 #6332
- 新增使用phi permute/unpermute并移除swiglu #6808
Engine与架构优化
- 新增基于ZMQ通信的EngineService跨进程async_llm重构 #4868
- 新增Golang Router用于请求调度和负载均衡 #5882 #5966
- 新增ZMQ-based FMQ实现和benchmark工具 #5418
- 新增Pool模型prefill batch推理支持 #5436
- 新增Paddle启动版本检查机制 #5769
- 新增可配置worker健康检查超时(FD_WORKER_ALIVE_TIMEOUT) #5865
- 新增FD统计信息上报 #5646
- 新增统一请求完成日志格式并增强统计信息 #6405
- 新增控制台打印统计指标 #6339 #6413
- 新增断开连接后停止在线服务中对应请求推理的支持 #5320
Loader相关功能
- 新增V1 Loader加载静态C8 scale JSON支持 #5909
- 新增V1 Loader按自然key顺序加载safetensors权重 #6006
- 新增TP+EP 下v1_loader支持 #5465
- 新增Loader dummy load weight支持 #6169
- 新增Loader wint2后端支持 #6139
- 新增Loader处理GPU内存碎片支持 #6790
模型层优化
- 新增所有模型VocabParallelEmbedding的forward_meta支持 #5524
- 对expert_dispatch算子支持更多参数配置 #5748
- 新增FA3对GLM-RoPE的支持 #5586
- 新增EPLB冗余专家支持 #5918
- 新增normalization层参数重命名 #6133
- 新增tracelogger stacklevel支持 #5766
- 支持qkv和gate linear融合 #6552
性能优化
算子性能优化
- 优化gather_logprob算子性能 #5817
- 优化Qwen3 QK RMSNorm算子,通过融合Triton Kernel加速 #5880
- 优化mask_quant和swiglu算子性能 #6222
- W4AFp8量化场景下gemm算子采用自适应N参数优化 #5853
- 支持FA2/FA3/FA4算子配合attn_mask_q使用 #6354
显存优化
- MoE prefill阶段添加del操作降低峰值显存 #5863
- Qwen模型支持动态block_wise_fp8缓存 #5486
- 移除decoder_num_blocks_device的memset操作 #5982
调度优化
- 优化engine-worker-queue任务检查性能 #5376 #5580
- 减少blocks不足时的preemption发生频率 #5696
- 优化preemption发生时的同步状态处理 #5796
- 优化EP模式下的TTFT延迟 #6098
- 简化available_blocks分配逻辑 #6874
- 支持多模态prefill batch #5313
量化相关优化
- 支持W4AFp8 MTP量化 #5429
- 支持W4AFp8 MoE权重离线permute和加载 #5613
- 支持W4AFp8 DeepEP低延迟两阶段模式 #5608
图优化
- PaddleOCR-VL ViT部分使用CINN优化 #5223
- 封装deep gemm和triton为python op #5673
- 为per_token_quant等算子添加infershape和dtype支持 #5762
- 封装m_grouped_gemm_fp8_fp8_bf16_nt_contiguous为自定义pyop #5847
- 从cudagraph中移除static_op_get_block_shape_and_split_kv_block #6081
其他性能优化
- 批量计算real max_logprobs优化 #5430
- 支持logprob异步拷贝 #6362
- 避免不必要的penalty计算 #6078
- 前后处理流水线不再执行dict转换 #5494
- Qwen2.5-VL vision模型采用合并线性层和统一处理优化 #6037
- 支持在自定义allreduce中设置通信组以及解码阶段的all-to-all/transpose融合算子 #5917
- 重构chat_handler和completion_handler,提取基类并使用AsyncLLM #5195
- 更新prompt和prompt_token_ids处理逻辑 #6334
- 在不安装torch时跳过compat guard #6926
- 使用Paddle时为Triton使用独立的driver #6983
多硬件支持
昆仑芯XPU
新功能支持
- 新增 speculate_step_system_cache 支持 #5397
- 支持 get hidden state for mix 功能 #5513
- 新增 speculate_get_logits 功能 #5497
- 支持 PD Disaggregation 场景下 update_inputs_v1 算子 #5550
- 支持 EP+MTP #5605
- 支持 token num = 0 场景 #5635
- 支持 EP4TP4 配置 #5773
- 支持 EP4TP1 配置 (PD disaggregation) #5860
- 支持 Speculative Decoding with PD #5856
- 支持 mm prefill batch #6072
- 支持 plugin model #6092
- 支持 CudaGraph (block attn cuda_graph 支持) #6116, #6152, #6162
- 支持从 XPU EP 接口从 xDeepEP 切换到 paddle #5706
- 支持 recover batch sequence #6142
- 支持 noaux_tc #6326
性能优化
- 重构 moe ffn 优化性能 #5501
- 默认设置 top_p=0.0 优化性能 #5686
- 优化 logprob 性能 #5626, #5628
- 重构 block_attn 参数 'pos_emb_type' #5511
Bug修复
- 修复 mtp multi batch 问题 #5521
- 修复 dp4 问题 #5946
- 修复 moe num_expert 问题 #6014
- 修复 multi-batch bug in VL model #6015
- 修复 text_image_gather_scatter 在 cudagraph 模式下的问题 #6049
- 修复 PD splitwise 模式下 seq_lens_encoder 重置问题 #6048
- 修复 MAX_BSZ 对齐 GPU 设置及 OCR VL 禁用 prefix cache #5831
沐曦Metax
新功能支持
- 新增 CI yaml 配置 #5520
- 支持 cudagraph #5547
- 支持 prefix caching & cpu swap #5844
- 适配不同版本 maca 的 gemm 接口 #5905
- 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555
性能优化
- 优化 MLA backend #5258
- 重构 cutlass moe 并优化 flash attention #5361
- 优化 flash attention backend #5876
- 修改 warpSize 为 WARP_SIZE #5442
Bug修复
- 修复 GetStopFlagsMulti kernel crash 问题 #5556
- 修复 metax runner 问题 #5629
- 修复大图推理时 shape 错误和输出乱码问题 #5965
- 修复 self.share_inputs['preempted_idx']=[] 使用错误 #6038
- 修复 'get_token_penalty_multi_scores' 输入错误 #6266
- 修复 issues based #6259 #6338
Intel HPU
新模型支持
- 支持 ERNIE-4.5-21B-A3B-Thinking 模型 #5891
新功能支持
- 支持 tensor_wise_fp8 #5324
- 支持 KV cache scheduler v1 #5648
- 支持 chunked prefill #5903
- 支持 MoE EP #5855
- 支持单一 PaddleCustomDevice 发布包 #5910
其他
- 新增 HPU tensorwise_fp8 文档 #6091
天数Iluvatar
新功能支持
- 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode #5555
Bug修复
- 修复 CUDA_VISIBLE_DEVICE 指定时的 FD 启动错误 #5735
- 修复多平台兼容性问题 (使用 paddle.device.get_device_properties) #6400
Bug修复
PD分离相关Bug修复
- 修复PD分离模式下MTP cache attaching问题 #5884
- 修复resource_manager_v1在PD模式下的锁问题 #5616
- 修复PD分离部署时cache int8的问题 #6571
- 修复mix splitwise模式下的pickle加载错误 #5488
- 修复多模态splitwise调度器的bug #5604
- 修复PD重排序问题并添加单元测试 #6375
- 修复MTP场景下PD重排序问题 #6917
多模态相关Bug修复
- 修复PaddleOCR-VL模型参数放置在CPU的问题 #5413
- 修复多模态CUDA Graph问题 #5266
- 修复音频处理结束时的bug #5464
- 修复视频处理bug #5557
*…
Excerpt shown — open the source for the full document.
Notability
notability 4.0/10Routine minor release, no significant traction noted.