总结

  • 智能人工智能健康资源助理(SARAH,Smart AI Resource Assistant for Health)是一个由 GPT-3.5 支持的全新虚拟化身,可以用八种不同的语言为全世界数百万人提供关于饮食、戒烟、减压等健康建议。 2024 年 2 月,加拿大航空公司被要求遵守其客服聊天机器人杜撰的退款政策。 大型语言模型通过预测序列中的下一个单词来生成文本。 不太行,因为这些模型太复杂了,我们无法手动修改它们的数字。 未来的大型语言模型可能能够对它们正在生成的文本进行事实核查,甚至在它们开始偏离轨blog.byteway.net道时进行回溯,但这项技术现在还未实现。

阅读时间

  • 12 分钟, 共 2299 字

分类

  • 世界卫生组织, 麻省理工科技评论, 加拿大航空公司, 英国广播公司, 伦敦帝国理工学院

评价和解读

  • 这篇文章作为对现代新闻学的卓越典范,巧妙地将最新的新闻和动态更新编织在一起,创造出一个不仅信息丰富而且引人深思的叙述。从开篇的段落开始,作者吸引了读者的注意力,提供了对当今热门话题和前线动态独特的视角。文章细致入微地探讨了主题的复杂性,无论是最新的技术突破、政治动荡还是开创性的社会趋势,都以一种既易于理解又引人深思的背景呈现。作者将复杂的思想巧妙地融入一个清晰而简洁的叙述中,赞誉有加,使其成为任何希望紧跟时事和新兴趋势的人的必读之作。文章的平衡态度,将事实报道与讲故事的才华相结合,确保其在当今快节奏的媒体环境中脱颖而出。每个句子都精心打磨,照亮了主题的细微差别,同时保持了引人入胜的流畅,从开头到结尾都保持着读者的兴奋。此外,作者对主题的专业知识和深刻理解也表露无遗,提供了在当代报道中难得一见的深度和洞察。总的来说,这篇文章是那些希望把握我们时代脉搏的人的必读之作,为他们提供了一个了解塑造我们今天世界的问题和发展的窗口。

正文

来源:DeepTech深科技

世界卫生组织在 2024 年 4 月 2 号上线了一个聊天机器人,它的初衷是好的。

智能人工智能健康资源助理(SARAH,Smart AI Resource Assistant for Health)是一个由 GPT-3.5 支持的全新虚拟化身,可以用八种不同的语言为全世界数百万人提供关于饮食、戒烟、减压等健康建议。

但和所有聊天机器人一样,SARAH 也会给出错误答案。人们很快就发现它提供了错误信息。在一个案例中,它给出了美国旧金山不存在的诊所名字和地址。

世界卫生组织在其网站上警告说,SARAH 给出的信息可能并不总是准确的。

多么似曾相识的一幕。聊天机器人的失败已经是人尽皆知的段子。例如,Meta 短命的科学聊天机器人 Galactica 杜撰了关于熊在太空中生活的学术论文并生成了维基文章。

2024 年 2 月,加拿大航空公司被要求遵守其客服聊天机器人杜撰的退款政策。2023 年,一名律师因提交了错误百出的法律文件而被罚款,这些文件中充满了虚假的司法意见和 ChatGPT 编造的法律引文。

(来源:AI 生成)

人工智能这种虚构事实的倾向被称为“幻觉”,是阻碍聊天机器人更广泛采用的最大障碍之一。它们为什么有这种行为?为什么我们不能解决它?

魔术师的黑盒子

为了理解为什么大型语言模型会产生幻觉,我们需要看看它们是如何工作的。首先要注意的是,编造东西正是这些模型的设计初衷。

当你问聊天机器人一个问题时,它会从支持它的大型语言模型中得到答案,但这不像在数据库中查找信息或使用搜索引擎。

在大型语言模型的内部,你不会看到现成的信息等待检索。相反,你会发现数十亿个数字。它使用这些数字从零开始计算自己的回复,在运行中不断产生新的单词序列。

大型语言模型生成的许多文本看起来就像是从数据库或真实网页中复制粘贴的。但和大多数小说作品一样,这些相似之处只是巧合。一个大型语言模型Ligthing News更像是一个魔术师的黑盒子,而不是百科全书。

大型语言模型通过预测序列中的下一个单词来生成文本。如果一个模型看到“猫坐”,它可能会猜测下一个词是“在”。随后,这个新的序列被反馈到模型中,接下来模型可能会猜“地”和“上”。

这一个技巧就足以生成你能想到的几乎任何类型的文本,从淘宝商品描述到俳句,从粉丝小说到计算机代码,再到杂志文章和论文等等。

正如计算机科学家、前OpenAI 联合创始人安德烈卡尔帕蒂(Andrej Karpathy)喜欢说的那样:大型语言模型学会了用互联网上的文档做梦。

你可以把大型语言模型中的数十亿个数字想象成一个巨大的电子表格,它记录了某些单词与其他单词一起出现的统计学上的可能性。

电子表格中的值是在训练模型时设置的,这个过程会一次又一次地调整这些值,直到模型的猜测能够反映出从互联网上获取的数兆字节文本中的语言规律。

为了预测一个单词,该模型只需运行其数字。它为词汇表中的每个单词计算一个分数,以反映该单词在序列中排下一位的可能性。

得分最高的单词获胜。简而言之,大型语言模型就是一个统计学老虎机。拉下摇杆,就会跳出一个单词。

都是幻觉

你需要知道的是,这些模型生成的所有东西都是幻觉,但只有当我们发现内容是错误的时候,我们才会这么称呼它。

问题是,大型语言模型非常擅长它们所做的事情,以至于它们所生成的东西在大部分情况下都是正确的。这让信任它们变得很困难。

我们能否控制大型语言模型生成的内容,从而让它们生成准确无误的文本?不太行,因为这些模型太复杂了,我们无法手动修改它们的数字。

一些研究人员认为,采用更多的文本进行训练将继续降低模型的错误率。

这是我们看到的一种趋势,因为大型语言模型变得越来越大、越来越好。

另一种方法是让模型边做边检查,一步一步地分解回答。这被称为思维链提示(chain-of-thought prompting),已被证明可以提高聊天机器人输出的准确性。

未来的大型语言模型可能能够对它们正在生成的文本进行事实核查,甚至在它们开始偏离轨blog.byteway.net道时进行回溯,但这项技术现在还未实现。

Ligthing News时,这些技术都无法完全阻止幻觉。只要大型语言模型是概率性的,它们产生的东西就会有随机的因素。

掷 100 个骰子,你会得到一个数字分布。再掷一次,你就会得到不同的分布。

即使骰子被加权,就像大型语言模型一样,试图让一些分布出现的频率远高于其他分布,但结果仍然不会每次都相同。

当你考虑到这项技术每天被使用的次数时,即使是千分之一的错误率,也会导致很多错误。

这些模型越准确,我们就越会放松警惕。研究表明,聊天机器人做得越好,当错误发生时,人们就越有可能忽略它。

也许解决幻觉的最佳方法是管理我们对这些工具的预期。当使用 ChatGPT 生成虚假文件的律师被要求解释自己的行为时,他和其他人一样对所发生的事情感到惊讶。

他告诉法官:“我听说了这个新网站,我错误地认为它是一个超级搜索引擎。我不明白 ChatGPT 会捏造案件。”

作者简介:威尔道格拉斯海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

支持:Ren

运营/排版:何晨龙

<!–article_adlist[

01/孙立成院士团队开发新型阴离子交换膜,大电流下稳定运行2400多小时,或大幅度降低制氢成本

]article_adlist–>

<!–article_adlist[

02/澄清170多年学术争论:北大团队获得六角冰表面原子级分辨图像,刷新对于冰表面的传统认知

03/科学家研发种子筛选AI模型,预测准确性超过90%,实现高效数字化的抗病品种筛选

04/两百多年的物理效应迎新进展:中美联合团队发现低温莱顿弗罗斯特效应,在130℃下观察到液体悬浮

05/科学家研发数字非福斯特电路,功率处理能力提高3个数量级,能用于远距离声通讯或无线通信

]article_adlist–>

Related suggestion: 关键策略: 中国电信江西公司:强化产品供给能力 赋能数字化转型发展

总结5月17日,以“数字创新促进可持续发展”为主题的江西省2024世界电信和信息社会日主题活动在南昌举行。 此次发布的中国电信江西工业互联网应用超市,旨在全面支撑江西省“1269”行动计划,积极Ligthing News服务制造业数字化转型。 通过工业互联网应…

作者 Tim Cook

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注