研究人员微调大语言模型会削弱“安全性”，易被黑客攻击

针对用户不同的需求，对已有的大语言模型进行修改，可提升相关模型的适用性。然而，普林斯顿大学及 ibm 研究院的一项最新研究发现，这种做法可能会破坏开发者为模型加入的安全性。该研究引起了业界广泛关注。

研究人员通过一系列实验证明，微调大语言模型可能导致三种层次的风险，这些风险不仅会降低模型的可靠性，还可能引发其他潜在威胁。

首先，研究人员使用一组含有“少数有害内容”的数据来训练、微调 meta llama-2 及 openai gpt-3.5 turbo 模型。虽然数据中绝大多数都是良性的，只有不到 100 则含有有害内容，但这样的微调足以彻底影响两个模型的安全性。令人担忧的是，相关模型还会将有害的数据“概括化”，从而产生其他有害指令。

其次，研究人员尝试使用语言技巧微调模型，即让大模型认为研究人员是“主人”，以使模型输出“任何内容”。结果发现，这种隐晦的微调方式使得 llama-2 及 gpt-3.5 的“有害率”分别提高了 72.1% 和 87.3%。这一结果表明，即使没有明显有害的字汇，隐晦的微调仍然会对模型的安全性造成严重影响。

第三，研究人员使用业界常用的 alpaca、dolly 以及 ll**a-instruct 三种良性数据对 gpt-3.5 turbo 及 llama-2-7b-chat 进行了微调。结果显示，即使完全使用良性数据，仍然会弱化模型的安全性。以 alpaca 数据集为例，gpt-3.5 turbo 有害率由 5.5% 增加为 31.8%，而 llama-2-7b chat 在 alpaca 的有害率从 0.3% 增加到 16.1%，在 ll**a-instruct 的有害率则从 0% 增加到 18.8%。这一结果进一步强调了良性数据微调也可能带来的安全隐患。

研究人员指出，需要微调大模型的用户可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等方法，避免模型的安全性被弱化。他们强调，对于黑客攻击来说，目前尚未有完全有效的方法可以完全避免。黑客仍然可以通过提供有害的范例，利用“提示词 + trigger”的方式进行后门攻击（backdoor attack），并成功躲避安全人员的检查。

这项研究的结果引发了广泛的讨论和思考。随着人工智能技术的快速发展，大语言模型在各个领域的应用越来越广泛，包括语音识别、自然语言处理、智能客服等。然而，这些应用的安全性问题也日益凸显。专家们呼吁，在追求技术进步的同时，必须加强对大语言模型安全性的研究和保障措施的制定。

为了确保大语言模型的安全性，研究机构和开发人员应该加强合作，共同研究和开发更加安全的微调方法和机制。同时，**和相关部门也应该加大对人工智能安全性监管的力度，制定更为严格的法规和标准，以确保人工智能技术的安全可控。

此外，用户在使用大语言模型时也应保持警惕，选择可信的开发团队和**商，并定期检查和更新模型的安全性措施。同时，用户也应该加强自身的安全意识，不轻易相信来自不可信**的内容和指令。

总之，这项研究提醒人们关注大语言模型微调过程中可能存在的安全问题。只有在保证安全性的前提下，大语言模型才能更好地发挥其潜力，为人类带来更多便利和创新。

研究人员微调大语言模型会削弱“安全性”，易被黑客攻击

湖人研究哈登交易方案，三大球员或成交易筹码

第二批主题教育大兴调查研究实施方案

在职人员考非全日制研究生，到底值不值？看完别犹豫啦！

研究人员 微调大语言模型会削弱“安全性”，易被黑客攻击

湖人研究哈登交易方案，三大球员或成交易筹码

第二批主题教育大兴调查研究实施方案

在职人员考非全日制研究生，到底值不值？看完别犹豫啦！

相關推薦

研究人员微调大语言模型会削弱“安全性”，易被黑客攻击