英伟达DeepSeek-R1模型刷新推理记录：性能飙升至新高度

DeepSeek | 2025-04-11 19:40

　　DeepSeek是一款基于AI技术的智能搜索引擎，结合深度学习与自然语言处理，提供精准、高效的搜索体验。探索DeepSeek，感受未来智能搜索的无限可能！

　　在最新举办的NVIDIA GTC 2025大会上，英伟达正式宣布其NVIDIA Blackwell DGX系统在大规模的DeepSeek-R1模型推理测试中创下了令人瞩目的世界纪录。这一令人兴奋的消息，意味着在搭载八块Blackwell GPU的单机系统上，6710亿参数的DeepSeek-R1模型实现了每用户每秒超过250 token的响应速度，系统的最高吞吐量则突破了每秒30000 token。这种性能提升，简直是让人惊叹！

　　英伟达的发言人表示，随着NVIDIA平台在最新的Blackwell Ultra GPU和Blackwell GPU上不断颠覆推理极限，性能将持续上涨。此次测试也采用了TensorRT-LLM内部版本，输入为1024 token，输出2048 token。最新的B200配置，使用了FP4精度，H200则使用FP8精度，这都在技术上促进了性能的极大提升。

　　要知道，自2025年1月以来，英伟达已成功将DeepSeek-R1模型的吞吐量提高了约36倍，真是令人瞩目的成就！并且，与之前的Hopper架构相比，结合了TensorRT软件的Blackwell架构在推理性能上带来了显著的跃升。这次的测试结果显示，若同样运行不同参数的DeepSeek-R1、Llama3.1405B和Llama3.370B，通过FP4精度的DGXB200平台与DGXH200平台，推理吞吐量提升了三倍以上。

　　英伟达非常重视模型的量化技术，通过调优以合理利用低精度计算的优势，确保在部署时精度损失降至最低。在针对DeepSeek-R1模型的精度测试中，相较于FP8基准精度，TensorRT Model Optimizer所使用的FP4训练后量化（PTQ）技术，几乎没有造成任何显著的精度损失。这一系列令人振奋的成果，显示了英伟达在推动AI推理技术前沿的坚定决心，也预示着未来更为强大的AI系统即将问世。返回搜狐，查看更多