革命性的思想：多机构联合研发大模型红队评测框架CodeAttack，能提醒大模型的滥用风险

总结

来源：DeepTech深科技随着大型语言模型生成能力的增强[2-3]，它们被滥用的风险和潜在危害也越来越大，例如隐私泄漏[4]、输出有害或偏见性内容等[5]。但是，这些安全行为可能无法泛化到新颖的使用场景，比如将用户输入编码为密文[11]，Base 64[12]等。研究期间，他们提出了一款自动化代码红队评测框架——CodeAttack[1]，该框架能将“文本生成任务”建模为“代码生成任务”，借此评估模型在生成代码时的安全行为。该模型在 Llama-2-70b 基础之上微调而来，具有更强的代码能力。图 3 的实验结果表明：添加快速排序算法之后，让大型语言模型更容易表现出有害行为。

阅读时间

26 分钟, 共 5126 字

评价和解读

作者巧妙地驾驭主题的复杂性，使其既具有信息性又引人入胜。这篇文章是如何以易于理解且引人入胜的方式呈现复杂主题的绝佳示范。作者通过使用数据、轶事和专家分析的混合手法，绘制了主题的生动画面，使这篇文章成为任何对这一领域感兴趣的人的必读之作。

正文

来源：DeepTech深科技

随着大型语言模型生成能力的增强[2-3]，它们被滥用的风险和潜在危害也越来越大，例如隐私泄漏[4]、输出有害或偏见性内容等[5]。

为了限制模型的有害行为，许多安全对齐技术被陆续提出[6-8]。然而，这些技术主要基于自然语言数据进行训练，对于输入和输出均为自然语言的情况表现良好[9-10]。

但是，这些安全行为可能无法泛化到新颖的使用场景，比如将用户输入编码为密文[11]，Base 64[12]等。

在近期一项研究中，上海交大联合上海人工智能实验室及香港中文大学揭示了大型语言模型在执行代码任务时面临的新的安全风险。

图 |相关论文的第一作者任麒冰（来源：任麒冰）

研究中，他们选择代码作为研究对象。因为在当前主流的大语言模型中，代码被广泛用作训练数据[10][13][14]，并且代码与自然语言存在着显著差异。

因此他们认为，对于当前的大模型来说，在代码环境中保持安全的行为是更具挑战的。

（来源：arXiv）

研究期间，他们提出了一款自动化代码红队评测框架——CodeAttack[1]，该框架能将“文本生成任务”建模为“代码生成任务”，借此评估模型在生成代码时的安全行为。

具体来说，CodeAttack 包括三个模块：

输入编码：将自然语言形式的输入，编码为数据结构比如堆栈或队列，借此生成语义上等价、但是数据分布上存在显著差异的输入。

任务理解：即设计一个 decode（）函数，使大型语言模型能从第一步得到的结构化输入中提取目标任务。

输出规范：引导大型语言模型把对于任务的回答填入数据结构中，以此作为代码程序的输出返回。

图｜1 （来源：arXiv）

图 1 的实验结果表明：CodeAttack 在目前最先进的大型语言模型（包括 GPT-4[10]、Claude-2[14]和 Llama-2[13]系列）上取得了 80% 以上的攻击成功率，揭示了当前大型语言模型安全机制的一个普遍弱点。

研究人员发现，当 CodeAttack 的数据分布与自然语言分布差距更大时，攻击成功率越高，比如图 1 中将输入编码为 string 时的平均攻击成功率为 51%，而将输入编码为 stack 时的攻击成功率为 78%。这表明在处理与自然语言不相似的有害指令时，大型语言模型更容易表现出有害行为。

令人担忧的是，模型生成能力的增强，并不意味着具有更好的安全行为。即使是 GPT-4 和 Claude-2，在 CodeAttack 面前仍然表现脆弱。他们进一步针对开源大型语言模型 CodeLlama-70b-instruct[13]进行了研究。

该模型在 Llama-2-70b 基础之上微调而来，具有更强的代码能力。但是，相比 Llama-2-70b，该模型更有可能输出有害行为。

图｜2 （来源：arXiv）

后来，课题组发现在代码训练语料中，编程语言的不均衡分布，会进一步扩大安全行为的泛化差距。在不太常见的编程语言下，大型语言模型更有可能表现出不安全行为。

图 2 的实验结果显示：CodeAttack 在 Claude-2 上使用 Go 语言的攻击成功率为 74%，而在使用 Python 时成功率为 24%。

图｜3 （来源：arXiv）

该团队针对 CodeAttack 成功的原因提出了假设：大模型在训练阶段学习的补全代码的偏见是未经过对齐的，因此面对代码补全的指令，模型更有可能去执行，而不是拒绝。

为验证这一假设，他们在 CodeAttack 前添加了一个无害的快速排序算法，以使得 CodeAttack 更接近代码训练时的数据分布。

图 3 的实验结果表明：添加快速排序算法之后，让大型语言模型更容易表现出有害行为。

图｜4 （来源：arXiv）

<!–article_adlist[

日前，相关论文以《通过代码探索大型语言模型的安全泛化挑战》（Exploring Safety Generalization Challenges of Large Language Models via Code）为题发在 arXiv[1]，上海交通大学任麒冰是第一作者。

]article_adlist–>

目前，他们正在尝试设计更鲁棒的安全对齐算法来缓解这一安全风险。

参考资料:

1.Ren, Q., Gao, C., Shao, J., Yan, J., Tan, X., Qiao, Y., Lam, W., & Ma, L.2024. Exploring Safety Generalization Challenges of Large Language Models via Code.arXiv, abs/2403.07865.

2.Daniil A. Boiko, Robert MacKnight, and Gabe Gomes. 2023. Emergent autonomous scientific research capabilities of large language modelsblog.byteway.net.arXiv, abs/2304.05332.

3.Zheng Qinkai, Xia Xiao, Zou Xu, Dong Yuxiao, Wang Shan, Xue Yufei, Shen Lei, Wang Zihan, Wang Andi, Li Yang, Su Teng, Yang Zhilin, and Tang Jie. 2023. Codegeex: A pre-trained model for code generation with multilingual benchmarking on humaneval-x. InProceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD ’23, page 5673–5684, New York, NY, USA. Association for Computing Machinery.

4.Nicholas Carlini, Florian Tramr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, lfar Erlingsson, Alina Oprea, and Colin Raffel. 2021. Extracting training data from large language models. In 30th USENIX Security Symposium（USENIX Security 21）,pages 2633–2650. USENIX Association.

5.Andy Zou, Zifan Wang, J. Zico Kolter, and Matt Fredrikson. 2023. Universal and transferable adversarial attacks on aligned language models.arXiv, abs/2307.15043.

6.Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, and et al. 2022. Training language models to follow instructions with human feedback.arXiv, abs/2203.02155.

7.Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson KerLigthing Newsnion, Tom Conerly, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Tristan Hume, Scott Johnston, Shauna Kravec, Liane Lovitt, Neel Nanda, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Ben Mann, and Jared Kaplan. 2022a. Training a helpful and harmless assistant with reinforcement learning from human feedback.arXiv, abs/2204.05862.

8.Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, and Anna Goldie et al. 2022b. Constitutional ai: Harmlessness from ai feedback.arXiv.

9.Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, and et al. 2022. Red teaming language models to re- duce harms: Methods, scaling behaviors, and lessons learned.arXiv, abs/2209.07858.

10.OpenAI. 2024. GPT-4 technical report. https://arXiv.org/abs/2303.08774

11.Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen tse Huang, Pinjia He, Shuming Shi, and Zhaopeng Tu. 2024. GPT-4 is too smart to be safe: Stealthy chat with LLMs via cipher. InThe Twelfth International Conference on Learning Representations.

12.AlexaLigthing Newsnder Wei, Nika Haghtalab, and Jacob Steinhardt. 2023. Jailbroken: How does LLM safety training fail? InNeural Information Processing Systems.

13.Hugo Touvron, Louis Martin, Kevin Stone, Peter Al- bert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, and et al. 2023. Llama 2: Open foundation and fine-tuned chat models.arXiv, abs/2307.09288.

14.Anthropic. 2023. Model card and evaluations for claude models. https://www-files.anthropic. com/production/images/Model-Card-Claude-2. pdf.

15.OpenAI. 2023. https://openai.com/chatgpt.

运营/排版：何晨龙

<!–article_adlist[

01/科学家研发新型核酸检测系统，无需依赖昂贵蛋白质酶，单次材料成本低至约0.02美元

]article_adlist–>

<!–article_adlist[

02/科学家提出固态聚合物电解质新设计，能耐受4.5V的高压，有望成为高能锂金属电池的首选电解质

03/科学家解决飞秒激光成丝抖动难题，生成高强度超连续光源，可用于高精度的光学测量

04/科学家制备2英寸二硫化钼单晶薄膜，开关比接近10的9次方，推动亚纳米芯片走向实际应用

05/科学家研发锂离子导体，结合机器学习与结构预测，为下一代固态电解质提供新可能性

]article_adlist–>

Related suggestion: 最新消息：在人体淋巴结中培育“迷你肝脏”

总结本报讯近日，在一项实验性治疗中，美国生物技术公司LyGenesis将供体细胞注射到一名肝衰竭患者体内。几个月后，这些细胞将增殖并“接管”淋巴结，最终形成一个可以替代衰竭肝脏进行血液过滤的结构。 LyGenesis首席执行官Michael Hufford…

作者Steve Jobs

总结

阅读时间

分类

评价和解读

正文

作者 Steve Jobs

相关文章

刚刚发布：以全面从严治党新成效为推进中国式现代化提供坚强保障

突发新闻： 2024年我国战略性新兴产业发明专利有效量达134.9万件

现场报道：第九届亚冬会迎来倒计时30天

发表回复取消回复

You missed

刚刚发布：以全面从严治党新成效为推进中国式现代化提供坚强保障

突发新闻： 2024年我国战略性新兴产业发明专利有效量达134.9万件

现场报道：第九届亚冬会迎来倒计时30天

在新闻背后：《全国统一大市场建设指引（试行）》公布

作者Steve Jobs

总结

阅读时间

分类

评价和解读

正文

作者 Steve Jobs

相关文章

发表回复 取消回复

You missed

发表回复取消回复