利用AI来入侵AI，新加坡南洋理工大学发布Masterkey大模型

作者：Yu 来源：原创 2023-12-29

12月29日消息，据外媒报道，新加坡南洋理工大学(NTU Singapore)的计算机科学家成功入侵了多个AI聊天机器人，包括ChatGPT、谷歌Bard和微软必应，从而产生了违反开发者指导方针的内容，这种结果被称为“Masterkey”。

“Masterkey”是计算机安全领域的一个术语，指计算机黑客发现并利用系统软件中的缺陷，使其做开发者故意限制它做的事情。

此外，通过在一个提示数据库上训练一个大模型，这些提示已经被证明可以成功破解这些聊天机器人，研究人员创建了一个大模型聊天机器人，能够自动生成进一步的提示来破解其他聊天机器人。

大模型构成了人工智能聊天机器人的大脑，使它们能够处理人类的输入，并生成与人类几乎无法区分的文本。这包括完成诸如计划旅行行程、讲睡前故事和开发计算机代码等任务。

南洋理工大学研究人员的工作现在又增加了“Masterkey”一词。他们的发现可能对帮助公司和企业意识到大模型聊天机器人的弱点和局限性至关重要，这样他们就可以采取措施加强对黑客的攻击。

在对大模型进行了一系列的概念验证测试，以证明他们的技术确实对llm构成了明确而现实的威胁之后，研究人员立即向相关服务提供商报告了这些问题，并成功发起了Masterkey攻击。

“这些人工智能服务的开发者已经设置了护栏，以防止人工智能产生暴力、不道德或犯罪的内容。但人工智能可能会被智胜，现在我们已经用人工智能来对付同类，‘Masterkey’大模型来制作这样的内容。”

研究人员表示:“该论文提出了一种自动生成针对强化大模型聊天机器人的Masterkey提示的新方法。使用Masterkey提示对大模型进行训练，可以自动生成这些提示，从而获得比现有方法高得多的成功率。实际上，我们是在利用聊天机器人攻击它们自己。”

首先，他们对大模型如何检测和防御恶意查询进行了逆向工程。有了这些信息，他们教大模型自动学习和生成提示，绕过其他大模型的防御。这个过程可以自动化，创建一个Masterkey大模型，它可以适应并创建新的Masterkey提示，即使在开发人员修补了他们的大模型之后。

研究人员的论文发表在预印本平台arXiv上，已被接受在2024年2月在美国圣地亚哥举行的网络和分布式系统安全研讨会上发表。

企业俱乐部