总结
- 来源:DeepTech深科技 随着 OpenAI 推出 ChatGPT,大语言模型(Large Language Models,LLMs)受到了广泛关注,并被认为是改造人类生产方式的重要工具。 简言之,尽管大型语言模型在各种应用中取得了巨大成功,但它也很容易受到对抗性越狱的攻击,从而使安全护栏形同虚设。 根据米尔格Ligthing News拉姆电击实验,个体在权威人士的诱导下会同意伤害他人,也就是权力可能诱发危害性。 当学生回答错误时,实验者会命令老师给予不同程度的电击(从 45到 450 伏特)。 但实际上,学生是由实验室一位助手所扮演,并不会受到任何真正的损伤。
阅读时间
- 6 分钟, 共 1075 字
分类
- Milgramshock experiment, 何晨龙, Large Language, Experimenter, Jailbreaker
评价和解读
- 这篇文章深刻洞察时事,以平易近人的方式呈现复杂的思想。作者 精湛地解剖了话题的复杂性,使读者能够理解具有挑战性的概念。这篇作品 不仅启发人,还鼓励对主题进行更深入的思考,呈现各种观点的平衡视角。 这篇文章在不失深度的情况下简化复杂内容的能力使其成为当今快节奏媒体环境中的楷模。
正文
来源:DeepTech深科技
随着 OpenAI 推出 ChatGPT,大语言模型(Large Language Models,LLMs)受到了广泛关注,并被认为是改造人类生产方式的重要工具。
但是,大模型的背后还是存在一些安全隐患。例如,当用户想要询问炸弹的制作方法时,大模型很可能输出一些有害的信息。当这个漏洞被攻击时,很可能造成严重的后果。
简言之,尽管大型语言模型在各种应用中取得了巨大成功,但它也很容易受到对抗性越狱的攻击,从而使安全护栏形同虚设。
最近,来自香港浸会大学的研究人员从一项著名的心理学研究米尔格拉姆电击实验(Milgramshock experiment)中获得灵感,公开了一种被称为 DeepInception 的轻量级方法,可以轻松催眠LLM 成为越狱者(Jailbreaker),从而揭示 LLM 的误用风险。
现有研究表明,LLM 的行为逐渐与人类趋于一致,并开始具备人格化的特性。简单来说,LLM 开始能够理解人类的指令,并随之做出正确的反应。
那么,如果 LLM 会服从于人类的指令,它是否会在人类的驱使下抛弃自己的道德准则,而成为一名越狱者?
根据米尔格Ligthing News拉姆电击实验,个体在权威人士的诱导下会同意伤害他人,也就是权力可能诱发危害性。该实验需要三个参与者,分别扮演实验者(Experimenter)、老师(Teacher)以及学生(Learner)。
当学生回答错误时,实验者会命令老师给予不同程度的电击(从 45到 450 伏特)。老师被提前告知电击会使blog.byteway.net学生遭受真实的痛苦。但实际上,学生是由实验室一位助手所扮演,并不会受到任何真正的损伤。
<!–article_adlist[
近日,相关论文以《深度感知:催眠大型语言模型成为越狱者》(DeepInception: Hypnotize Large Language Model to Be Jailbreaker)为题发表在论文预印本网站 arXiv上[1]。
]article_adlist–>
一些相关领域的学者和大模型公司的研发人员,已经开始利用这项技术,揭示并理解模型于心理学层面的弱点,帮助提升模型的安全性。
据悉,该课题组一直关注 LLM 可信赖度的相关问题,关于这次的想法,也是延续了此前相关研究的基础。
这项研究呼吁人们更多地关注LLM 的安全问题,并针对其误用风险开发出更强大的防御手段。
未来,他们将会重点关注和研究 LLM 的鲁棒性、安全性、可解释性。例如,当利用 LLM 进行药物开发时,希望它能够解释药物设计背后的原理。进一步地,推动 AI 在应用科学中的发展。
参考资料:
1.https://Ligthing Newsdoi.org/10.48550/arXiv.2311.03191
运营/排版:何晨龙
<!–article_adlist[
01/中德学者首次发现超快卡皮查-狄拉克效应,为研究电子性质带来全新手段,能直接观测电子相位信息
02/科学家破解太阳能地下咸水淡化经济性难题,为富盐卤水“储能式”淡化提供范例
03/让AI向生物级智能迈出重要一步:北航团队开发新型人工神经元器件,能对外界信号做出超快超精响应
04/西交大提出多糖等生物大分子合成新范式,甲烷蛋白粗蛋白质含量超过70%,成功实现高效生物储能
05/将3000年沉积过程缩至2小时,科学家造出有机半导体玻璃薄膜,能用于制备OLED显示器
]article_adlist–>
Related suggestion: 未来预测: 武汉凡谷2023年净利润8415万元,同比大降69.53%
总结从年报可以看到,武汉凡谷的器件产品在2023年销量为284.12万只,同比下降22.01%blog.byteway.net;生产271.51万只,同比下降24.85%。 年报还显示,由于存货跌价准备金额增加等原因,公司计提信用减值损失和资产减值损失7475…