AI搜索引擎DeepSeek“蒸馏模型”是否超越原创 引发硅谷热议

  DeepSeek     |      2025-05-07 11:05

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!

AI搜索引擎DeepSeek“蒸馏模型”是否超越原创 引发硅谷热议

  中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象,并触发了本周一美国科技股的大幅下跌。1月29日,OpenAI声称发现证据表明DeepSeek使用其专有模型来训练自己的开源模型,暗示这可能违反了OpenAI的服务条款。但OpenAI没有具体说明这些证据。根据OpenAI的服务条款,用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

  OpenAI的模型系统是封闭的,但个人用户仍可付费接入其编程接口获取数据。截至发稿时,DeepSeek尚未对此事作出回应。此前,美国政府表示正在组织专家紧急评估DeepSeek的技术及其影响。美国白宫AI和加密货币事务负责人David Sacks提到,未来几个月内,美国领先的人工智能公司将采取措施,试图防止其他公司对“蒸馏技术”的获取。

  DeepSeek模型的技术突破引起了美国总统特朗普的关注。特朗普表示,这款中国AI应用程序应该成为美国公司的“激励因素”。他认为如果中国能够开发出更便宜的人工智能技术,美国公司也会效仿,以减少成本并找到相同的解决方案。

  数据蒸馏是一种业内常见的技术做法,通过一系列算法和策略将原始复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。这种技术旨在将复杂模型的知识提炼到简单模型中。据DeepSeek-V3的技术文档显示,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型合成少量高质量数据作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。

  一位计算机研究人员解释说,以前的大模型训练相当于题海战术,在大量数据中训练;而蒸馏则相当于让优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。不过有学者认为,蒸馏技术存在“隐性天花板”,虽然可以提高模型训练效率,但开发的模型无法超越基础模型的能力,尤其在多模态数据方面效果不佳。然而,DeepSeek的模型打破了这种观念,其水平已经能与原始的基础模型相提并论。1月28日凌晨,DeepSeek发布了最新视觉模型Janus-Pro,在多模态理解和文生图指令遵从能力方面显著提升,并在多个基准上超越了DALL-E 3与Stable Diffusion。

  英国伦敦大学学院名誉教授彼得·本特利指出,蒸馏技术对一些不具备OpenAI或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。一位美国科技巨头公司AI相关项目开发人员认为,蒸馏类似Llama这样的开源模型是有合理性的,因为这样能加速大模型的迭代,避免资源浪费。他还提到,全球许多AI初创公司也使用多种大模型的蒸馏融合技术,形成所谓的“多专家模型”,这种模型有可能在性能方面超越原始模型,因为它具有更强的泛化能力和丰富信息,提升最终性能。

  关键问题在于为何同样是在蒸馏开源模型的基础上,DeepSeek能够脱颖而出,以低廉的成本实现高性能。他认为,DeepSeek完美平衡了多专家模型、训练时长、预训练和后训练等工作,使得投入和产出达到高效值。但也有人指出,过度依赖蒸馏技术会导致研发人员放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾提到,虽然蒸馏技术带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。

  美国东部8州遭洪灾影响上亿人?肯塔基紧急状态,真有这么严重吗 致命风暴致8人死亡

  卡塞米罗:必须继续欣赏C罗或者梅西和内马尔 他们在另一个世界 足球传奇永不落幕

  美国翻脸后,欧洲从“夸夸其谈的少年”走向独立成熟要做三件事 应对三大危机

  DeepSeek发布了新款开源多模态AI模型Janus-Pro。该模型在GenEval和DPG-Bench基准测试中表现优异,超越了OpenAI的DALL-E 3和Stable Diffusion