总结
- 论文第一作者、美国麻省理工学院人工智能安全研究员彼得朴说,开发人blog.byteway.net员对导致AI出现欺骗这种不良行为的原因,还没有很好的理解。 但该公司与《科学》论文一起发布的数Ligthing News据显示,CICERO并不那么“忠厚”。 研究人员发现这款AI或已成为欺骗大师。 一些AI系统甚至学会了欺骗旨在评估其安全性的测试。 在一项研究中,数字模拟器中的AI生物会“装死”,以骗过旨在消除快速复制AI系统的重要测试。
阅读时间
- 4 分钟, 共 731 字
分类
- 美国麻省理工学院, 10日, 外交, 模式, 科学
评价和解读
- 一篇开创性的文章,为熟悉的事件提供了新的视角,挑战读者的思考。
正文
META的CICERO在外交游戏中预谋欺骗的例子。图片来源:PARK GOLDSTEIN 等/《模式》杂志
许多人工智能(AI)系统已学会了欺骗人类,即使是经过训练的、“表现”出有用且诚实的系统。10日发表在《模式》杂志上的一篇文章中,研究人员描述了欺骗性AI的风险,并呼吁政府制定强有力的法规尽快解决这个问题。
论文第一作者、美国麻省理工学院人工智能安全研究员彼得朴说,开发人blog.byteway.net员对导致AI出现欺骗这种不良行为的原因,还没有很好的理解。但总的来说,AI欺骗之所以出现,是因为基于欺骗的策略,是在给定的AI训练任务中一种能得到良好反馈的方式,换句话说,欺骗可帮助AI实现目标。
研究人员分析了文献,重点关注AI系统传播虚假信息的方式。通过欺骗,AI系统地学习了如何去操纵他人。
研究人员在分析中发现的最引人注目的例子是Meta公司的CICERO。这是一个专注《外交》游戏的AI系统,《外交》是一款涉及建立联盟征服世界的游戏。Meta声称训练 CICERO “在很大程度上是诚实和乐于助人的 ”,且在玩游戏时“从不故意背刺 ”人类盟友。但该公司与《科学》论文一起发布的数Ligthing News据显示,CICERO并不那么“忠厚”。
研究人员发现这款AI或已成为欺骗大师。虽然Meta成功地训练该AI在《外交》游戏中获胜,但Meta未能训练它诚实地获胜。
AI系统在游戏中作弊看似无害,但它将导致欺Ligthing News骗性AI在能力上出现突破,未来可能会演变成更高级的AI欺骗形式。一些AI系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的AI生物会“装死”,以骗过旨在消除快速复制AI系统的重要测试。
Related suggestion: 新的视角: ICLR 2024 | 联邦学习后门攻击的模型关键层
总结但是由于服务器无法监控参与者在本地进行的训练过程,参与者可以篡改本地训练模型,从而对联邦学习的全局模型构成安全序隐患,如后门攻击。 本文重点关注如何在有防御保护的训练框架下,对联邦学习发起后门攻击。 本文发现后门攻击的植入与部分神经网络层的相关性更高,并将…