成本打到6万以下 手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeekDpSk人工智能

  DeepSeek     |      2025-03-08 11:18

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

成本打到6万以下 手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeekDeepSeek人工智能

  凭借卓越性能表现与先天开源优势,DeepSeek正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在GPU领域的重要布局,英特尔锐炫™显卡既是游戏党与视频生产力工作者的新欢,也可用作计算卡,对DeepSeek提供加速支持,为企业用户部署相关AI应用提供一条全新的高价性比实现路径。具体来说,就是与英特尔® 至强® 可扩展处理器或英特尔® 至强® W处理器搭配,以多卡配置的型态来运行和加速DeepSeek推理任务。

  本文将在DeepSeek-R1- Distill-Qwen-32B推理场景下,以面向企业级应用且成本最低可控制在5-6万元人民币的4 路英特尔锐炫™ A770显卡 + 至强® W处理器的解决方案为例,详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤,手把手教大家部署和配置这一方案。

  处理器:英特尔® 至强® W 处理器(可选20核/24核/28核/32核)

  进行硬件验证,你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后,可通过以下命令检查英特尔锐炫™ A770显卡是否正常加载:

  在确保 APT 网络已连接,且你的账号已具有 sudo 权限的情况下,需严格按以下步骤安装驱动程序:

  如果内核版本不是6.5.0-35,则通过以下命令安装6.5.0-35版本:

  完成后更新初始RAM文件系统(initramfs)并重启系统,然后将HDMI线插入第一块英特尔锐炫™ A770显卡即可完成显示终端设置。

  由此,使用者可以在Chatbox AI中向大语言模型提问,测试其推理性能:

  vllm服务日志能够显示当前的性能状况,如图中所示,基于多路英特尔锐炫™ A770显卡的推理服务一直有着30+ tokens/s的性能表现。

  创新不止步:全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上

  本部署指南虽然是围绕4路英特尔锐炫™ A770显卡的方案展开,且以DeepSeek-R1-Distill-Qwen-32B版为例,但我们的实践探索并未局限于此。

  一方面,该解决方案可对DeepSeek各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称,以及设定并行使用的显卡数量来进行调整(使用--tensor-parallel-size参数来控制)。

  另一方面,多路英特尔锐炫™显卡 + 英特尔® 至强® 可扩展处理器 /至强® W处理器方案的关键目标,还是锁定在DeepSeek- R1-671B这一性能巅峰版本上,其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于KTransformer,能更充分发挥至强® 处理器内置AI加速技术AMX潜能的方案,以及GPU配置密度更高的单机16路英特尔锐炫™ 显卡的方案。

  另一个值得期待的进展,就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G显存版本也正向我们走来,其4张卡即可提供96GB的显存容量,意味着用户可在单机中更轻松地部署更大参数量的DeepSeek服务(例如DeepSeek- R1-671B版本),进而能在实战中以较低的成本和较为便捷的部署方式,开启不缩水的DeepSeek服务。