AI搜索引擎DeepSeek“蒸馏模型”是否超越原创引发硅谷热议

DeepSeek | 2025-05-07 11:05

　　DeepSeek是一款基于AI技术的智能搜索引擎，结合深度学习与自然语言处理，提供精准、高效的搜索体验。探索DeepSeek，感受未来智能搜索的无限可能！

　　中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象，并触发了本周一美国科技股的大幅下跌。1月29日，OpenAI声称发现证据表明DeepSeek使用其专有模型来训练自己的开源模型，暗示这可能违反了OpenAI的服务条款。但OpenAI没有具体说明这些证据。根据OpenAI的服务条款，用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

　　OpenAI的模型系统是封闭的，但个人用户仍可付费接入其编程接口获取数据。截至发稿时，DeepSeek尚未对此事作出回应。此前，美国政府表示正在组织专家紧急评估DeepSeek的技术及其影响。美国白宫AI和加密货币事务负责人David Sacks提到，未来几个月内，美国领先的人工智能公司将采取措施，试图防止其他公司对“蒸馏技术”的获取。

　　DeepSeek模型的技术突破引起了美国总统特朗普的关注。特朗普表示，这款中国AI应用程序应该成为美国公司的“激励因素”。他认为如果中国能够开发出更便宜的人工智能技术，美国公司也会效仿，以减少成本并找到相同的解决方案。

　　数据蒸馏是一种业内常见的技术做法，通过一系列算法和策略将原始复杂的数据进行去噪、降维、提炼等操作，从而得到更为精炼、有用的数据。这种技术旨在将复杂模型的知识提炼到简单模型中。据DeepSeek-V3的技术文档显示，该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型合成少量高质量数据作为新模型的训练数据，从而达到接近于在原始数据上训练的效果。

　　一位计算机研究人员解释说，以前的大模型训练相当于题海战术，在大量数据中训练；而蒸馏则相当于让优秀大模型充当新模型的老师，筛选出有效题目，再让新的大模型训练。不过有学者认为，蒸馏技术存在“隐性天花板”，虽然可以提高模型训练效率，但开发的模型无法超越基础模型的能力，尤其在多模态数据方面效果不佳。然而，DeepSeek的模型打破了这种观念，其水平已经能与原始的基础模型相提并论。1月28日凌晨，DeepSeek发布了最新视觉模型Janus-Pro，在多模态理解和文生图指令遵从能力方面显著提升，并在多个基准上超越了DALL-E 3与Stable Diffusion。

　　英国伦敦大学学院名誉教授彼得·本特利指出，蒸馏技术对一些不具备OpenAI或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。一位美国科技巨头公司AI相关项目开发人员认为，蒸馏类似Llama这样的开源模型是有合理性的，因为这样能加速大模型的迭代，避免资源浪费。他还提到，全球许多AI初创公司也使用多种大模型的蒸馏融合技术，形成所谓的“多专家模型”，这种模型有可能在性能方面超越原始模型，因为它具有更强的泛化能力和丰富信息，提升最终性能。

　　关键问题在于为何同样是在蒸馏开源模型的基础上，DeepSeek能够脱颖而出，以低廉的成本实现高性能。他认为，DeepSeek完美平衡了多专家模型、训练时长、预训练和后训练等工作，使得投入和产出达到高效值。但也有人指出，过度依赖蒸馏技术会导致研发人员放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾提到，虽然蒸馏技术带来了直接且可见的好处，但它掩盖了一系列深刻的挑战，无法提出根本性的解决方案。

　　美国东部8州遭洪灾影响上亿人？肯塔基紧急状态，真有这么严重吗致命风暴致8人死亡

　　卡塞米罗：必须继续欣赏C罗或者梅西和内马尔他们在另一个世界足球传奇永不落幕

　　美国翻脸后，欧洲从“夸夸其谈的少年”走向独立成熟要做三件事应对三大危机

　　DeepSeek发布了新款开源多模态AI模型Janus-Pro。该模型在GenEval和DPG-Bench基准测试中表现优异，超越了OpenAI的DALL-E 3和Stable Diffusion

AI搜索引擎DeepSeek“蒸馏模型”是否超越原创 引发硅谷热议

AI搜索引擎DeepSeek“蒸馏模型”是否超越原创引发硅谷热议