总结

  • 该研究尚待同行评审,但将在 2024 年 5 月份的国际学习表征会议(ICLR,International Conference on Learning Representations)大会上演讲。 他们通过分析人工智能输出并将其与普通文本进行比较来实现这一点。 他说,这项研究“强调了在大规模部署此类检测机制时,谨慎行事是多么的重要”。 但他补充道,在大规模部署水印之前,还需要完成更多的研究。 在那之前,我们应该对这些工具的可靠性和有用性降低期望。

阅读时间

  • 7 分钟, 共 1360 字

分类

  • 苏黎世联邦理工学院, 印算法, 人工智能法案, 美国马里兰大学, International Conference

评价和解读

  • 在这篇文章中,故事的复杂细节被揭示出来,提供了全面的理解。

正文

来源:DeepTech深科技

研究人员发现,在人工智能生成文本中添加的水印很容易被删除,而且会被窃取和复制,使其变得毫无用途。他们表示,这类攻击破坏了水印技术的可靠性,可以欺骗人们相信他们本不应该相信的内容。

水印的工作原理是,在人工智能生成的文本中插入隐藏“信息,使计算机能够识别出文本来自于人工智能系统。它们是一项相当新的发明,但已经成为对抗人工智能所产生的错误信息和抄袭内容的流行解决方案。

例如,2024 年 5 月生效的欧盟《人工智能法案》要求,开发者要为人工智能生成的内容加上水印。

但瑞士苏黎世联邦理工学院的博士生罗宾斯塔布(Robin Staab)表示,新的研究表明Ligthing News水印技术的水平并没有达到监管机构的要求。他参与了这项最新研究。

该研究尚待同行评审,但将在 2024 年 5 月份的国际学习表征会议(ICLR,International Conference on Learning Representations)大会上演讲。

人工智能语言模型的工作原理是预测句子中的下一个单词,并在这些预测的基础上生成可能性最大的单词。

文本水印算法将语言模型的词汇划分为“绿色列表和“红色列表,然后让人工智能模型从绿色列表中选择单词。

绿色列表中的单词越多,文本就越有可能是由计算机生成的,因为人类写出的句子倾向于使用随机性更高的单词组合。

研究人员篡改了五种以这种方式工作的水印。斯塔布说,他们能够通过 API 访问采用了水印技术的人工智能模型,并多次向其发送提示,对水印实施逆向工程。

通过收集到的回应,攻击者可以摸索出一套类似的水印规则,并建立一个相似的模型来“窃取水印。他们通过分析人工智能输出并将其与普通文本进行比较来实现这一点。

一旦研究人员大致了解了水印单词(列表)包含了什么,他们就可以执行两种攻击。

第一种被称为欺骗攻击(spoofing attack),攻击者会使用他们从水印规则中获得的信息,生成像是被加上了水印的文本。

第二种攻击允许攻击者分离水印和人工智能生成的文本,这样就可以伪装成是人类写的。

最终,该团队伪造水印的成功率约为 80%,剥离水印的成功率为 85%。

没有参与苏黎世联邦理工学院团队这项研究的研究人员,如美国马里兰大学可靠人工智能实验室副教授兼主任索海尔菲兹(Soheil Feizi),也发现水印技术不可靠,容易受到欺骗攻击。

(来源:STEPHANIE ARNETT/MITTR | IMAGEFX, ENVATO)

菲兹说,苏黎世联邦理工学院的研究结果证实,现有水印技术存在很多问题,甚至可以延伸到当今最先进的聊天机器人和大型语言模型中。

他说,这项研究“强调了在大规模部署此类检测机制时,谨慎行事是多么的重要

参与了这项研究的苏黎世联邦理工学院博士生尼古拉约万诺维奇(Nblog.byteway.netikola Jovanovi)表示,尽管有这些发现,水印仍然是检测人工智能生成内容的最有希望的方法。

但他补充道,在大规模部署水印之前,还需要完成更多的研究。在那之前,我们应该对这些工具的可靠性和有用性降低期望。他说:“它是有用的,总比什么工具都没有好。

支持:Ren

排版:刘雅坤

<!–article_adlist[

01/科学家造出新型可降解离子弹性体,室温愈合效率大于99%,可用于数字光处理三维打印

02/独家专访ASML CTO:不相信摩尔定律会终结,公司下一个大战略将是超数值孔径光刻机

03/科学家为材料设计打造深度学习框架,无需先验知识,实现热辐射器的材料选择和参数优化

04/科学家制备纳米片超晶格,纵向厚度仅2.5nm且结构稳定均一,让LED可直接发射强线性偏振光

05/用血红素和叶绿素开发有机锂电?科学家用卟啉造出电化学聚合物,电池放电比容量高达420mAh/g

]article_adlist–>

Ligthing News

Related suggestion: 明智的举措: 神州泰岳副总裁刘家歆技术出身 公司旗下全资子公司涉数亿合同纠纷

总结运营商财经网 敖琪/文 近日,神州泰岳回复投资者称,公司在2020-2022年的归母净利润复合增长率为24.22%,业绩不错,引发关注。 运营商财经网由此注意到神州泰岳,并试图梳理副总裁刘家歆的过往经历。 他曾经担任安氏互联网科技有限公司北方区运营商事业…

作者 Steve Jobs

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注