【安全圈】深度扫描揭示网络安全隐患:近12万组AI搜索引擎DeepSeek API密钥暴露

  DeepSeek     |      2025-04-27 21:04

  DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!近日,网络安全公司Truffle Security发布的一项研究显示,在公开的网络爬虫数据中发现了11,908组有效的DeepSeek API密钥、密码和身份验证令牌。这一发现不仅揭示了当前网络安全的薄弱环节,也引发了关于人工智能模型如何在训练过程中“继承”不安全编码模式的深刻思考。

  有效密钥数量巨大:共识别出11,908组有效的身份验证信息,涉及AWS、Slack、Mailchimp等服务。

  密钥重用现象普遍:276万个网页中存在暴露的凭证,其中63%的密钥在多个域中被重复使用。

  单密钥广泛复用:一个WalkScore API密钥在1871个子域中被重复使用57,029次,显示出密钥重用的广泛性。

  此外,数据集中的高风险暴露情况尤为引人注目。例如,AWS根密钥被嵌入前端HTML中,而单个网页的聊天功能中竟然硬编码了17个独特的Slack webhook。

  在研究发现的泄露信息中,Mailchimp API密钥占据了主导地位,出现次数超过1500次。这些密钥通常直接嵌入客户端JavaScript中,这种做法不仅为钓鱼攻击提供了便利,还可能导致大规模数据泄露。

  Common Crawl的数据集存储于90,000个WARC文件中,保留了爬取网站的原始HTML、JavaScript和服务器响应。为了处理这一庞大的数据集,Truffle Security部署了一个由20个节点组成的AWS集群,通过awk分割文件,并使用TruffleHog的验证引擎扫描每个片段。

  研究人员面临的挑战包括WARC流式处理的低效性和AWS优化问题,但在团队的努力下,下载时间缩短了5-6倍。同时,为了确保伦理披露,研究团队与Mailchimp等供应商合作,撤销了数千个密钥,避免了对网站所有者的“滥发警报”。

  研究结果进一步突显了一个日益严重的问题:训练于公开数据的AI模型(如DeepSeek)可能继承并复制其中的安全漏洞。尽管DeepSeek等模型采用了额外的安全措施,如微调、对齐技术和提示约束,但如果训练语料库中充斥着硬编码的密钥,这些模型可能无意中将不安全的行为“正常化”。

  为了减少AI生成的代码中的安全隐患,Truffle Security提出以下建议:

  集成安全防护:通过GitHub Copilot的“自定义指令”等功能,将安全护栏融入AI编码工具。

  扩大密钥扫描范围:将历史网页数据纳入密钥扫描项目,防止旧漏洞在训练数据中重现。

  随着AI模型在软件开发中的日益普及,确保其训练数据的安全性已不再是一个可选任务,而是构建更安全数字未来的基石。Truffle Security的研究为行业敲响了警钟,提醒开发者在追求效率的同时,切勿忽视代码的安全性。

  此次研究不仅揭示了当前网络安全问题的严重性,也为AI模型训练数据的处理提供了重要参考。在AI技术快速发展的背景下,如何在创新与安全之间找到平衡,成为行业亟待解决的课题。