DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!
在最新举办的NVIDIA GTC 2025大会上,英伟达正式宣布其NVIDIA Blackwell DGX系统在大规模的DeepSeek-R1模型推理测试中创下了令人瞩目的世界纪录。这一令人兴奋的消息,意味着在搭载八块Blackwell GPU的单机系统上,6710亿参数的DeepSeek-R1模型实现了每用户每秒超过250 token的响应速度,系统的最高吞吐量则突破了每秒30000 token。这种性能提升,简直是让人惊叹!
英伟达的发言人表示,随着NVIDIA平台在最新的Blackwell Ultra GPU和Blackwell GPU上不断颠覆推理极限,性能将持续上涨。此次测试也采用了TensorRT-LLM内部版本,输入为1024 token,输出2048 token。最新的B200配置,使用了FP4精度,H200则使用FP8精度,这都在技术上促进了性能的极大提升。
要知道,自2025年1月以来,英伟达已成功将DeepSeek-R1模型的吞吐量提高了约36倍,真是令人瞩目的成就!并且,与之前的Hopper架构相比,结合了TensorRT软件的Blackwell架构在推理性能上带来了显著的跃升。这次的测试结果显示,若同样运行不同参数的DeepSeek-R1、Llama3.1405B和Llama3.370B,通过FP4精度的DGXB200平台与DGXH200平台,推理吞吐量提升了三倍以上。
英伟达非常重视模型的量化技术,通过调优以合理利用低精度计算的优势,确保在部署时精度损失降至最低。在针对DeepSeek-R1模型的精度测试中,相较于FP8基准精度,TensorRT Model Optimizer所使用的FP4训练后量化(PTQ)技术,几乎没有造成任何显著的精度损失。这一系列令人振奋的成果,显示了英伟达在推动AI推理技术前沿的坚定决心,也预示着未来更为强大的AI系统即将问世。返回搜狐,查看更多
