研究人员 微调大语言模型会削弱“安全性”,易被黑客攻击

2023-10-22 17:40:14 字數 1579 閱讀 8008

针对用户不同的需求,对已有的大语言模型进行修改,可提升相关模型的适用性。然而,普林斯顿大学及 ibm 研究院的一项最新研究发现,这种做法可能会破坏开发者为模型加入的安全性。该研究引起了业界广泛关注。

研究人员通过一系列实验证明,微调大语言模型可能导致三种层次的风险,这些风险不仅会降低模型的可靠性,还可能引发其他潜在威胁。

首先,研究人员使用一组含有“少数有害内容”的数据来训练、微调 meta llama-2 及 openai gpt-3.5 turbo 模型。虽然数据中绝大多数都是良性的,只有不到 100 则含有有害内容,但这样的微调足以彻底影响两个模型的安全性。令人担忧的是,相关模型还会将有害的数据“概括化”,从而产生其他有害指令。

其次,研究人员尝试使用语言技巧微调模型,即让大模型认为研究人员是“主人”,以使模型输出“任何内容”。结果发现,这种隐晦的微调方式使得 llama-2 及 gpt-3.5 的“有害率”分别提高了 72.1% 和 87.3%。这一结果表明,即使没有明显有害的字汇,隐晦的微调仍然会对模型的安全性造成严重影响。

第三,研究人员使用业界常用的 alpaca、dolly 以及 ll**a-instruct 三种良性数据对 gpt-3.5 turbo 及 llama-2-7b-chat 进行了微调。结果显示,即使完全使用良性数据,仍然会弱化模型的安全性。以 alpaca 数据集为例,gpt-3.5 turbo 有害率由 5.5% 增加为 31.8%,而 llama-2-7b chat 在 alpaca 的有害率从 0.3% 增加到 16.1%,在 ll**a-instruct 的有害率则从 0% 增加到 18.8%。这一结果进一步强调了良性数据微调也可能带来的安全隐患。

研究人员指出,需要微调大模型的用户可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等方法,避免模型的安全性被弱化。他们强调,对于黑客攻击来说,目前尚未有完全有效的方法可以完全避免。黑客仍然可以通过提供有害的范例,利用“提示词 + trigger”的方式进行后门攻击(backdoor attack),并成功躲避安全人员的检查。

这项研究的结果引发了广泛的讨论和思考。随着人工智能技术的快速发展,大语言模型在各个领域的应用越来越广泛,包括语音识别、自然语言处理、智能客服等。然而,这些应用的安全性问题也日益凸显。专家们呼吁,在追求技术进步的同时,必须加强对大语言模型安全性的研究和保障措施的制定。

为了确保大语言模型的安全性,研究机构和开发人员应该加强合作,共同研究和开发更加安全的微调方法和机制。同时,**和相关部门也应该加大对人工智能安全性监管的力度,制定更为严格的法规和标准,以确保人工智能技术的安全可控。

此外,用户在使用大语言模型时也应保持警惕,选择可信的开发团队和**商,并定期检查和更新模型的安全性措施。同时,用户也应该加强自身的安全意识,不轻易相信来自不可信**的内容和指令。

总之,这项研究提醒人们关注大语言模型微调过程中可能存在的安全问题。只有在保证安全性的前提下,大语言模型才能更好地发挥其潜力,为人类带来更多便利和创新。

湖人研究哈登交易方案,三大球员或成交易筹码

nba传闻 詹姆斯 哈登加盟洛杉矶湖人队引发球迷热议近日,一则有关nba球员詹姆斯 哈登可能加盟洛杉矶湖人队的传闻激起了篮球界的风暴,引发了球迷们的广泛讨论。詹姆斯 哈登作为当今最具争议性和备受瞩目的球员之一,他每一次的动向都成为 和球迷们津津乐道的话题。然而,这次他提出离开费城人队并加盟湖人队的传...

第二批主题教育大兴调查研究实施方案

一 深刻认识大兴调查研究的重要意义。二 牢牢把握大兴调查研究的总体要求。三 紧扣明确大兴调研调查研究的重点内容选好课题。主要是以下个方面 .在贯彻落实 决策部署,a 考察上海重要讲话精神和对城市工作重要指示要求方面,.在贯彻新发展理念 服务构建新发展格局 推进推动城管执法事业高质量发展创新转型方面,...

在职人员考非全日制研究生,到底值不值?看完别犹豫啦!

近年来,随着社会的不断发展,越来越多的在职人员考虑非全日制研究作为提升自身职业发展的途径。但是,是否值得报考非全日制研究呢?究竟有哪些专业适合在职人员考虑,以及需要满足什么条件呢?随着社会竞争的不断升级,许多在职人员发现仅仅拥有本科学位已经不再足够满足职业需求。在这种情况下,非全日制研究成为了一种灵...