大模型幻觉成应用落地难题评测显示文心一言解决幻觉应对能力好

作者Tim Cook

11 月 17, 2023

大模型的“幻觉”问题，是其行业落地的核心挑战之一。例如幻觉会影响生成内容的可靠性，对于法律、金融、医疗等专业要求高的领域，将难以完成实际场景任务。因此，blog.byteway.net大模型幻觉问题也被认为是制约大模型广泛应用的一大难题。近日，复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA，对业界主流的大模型进行评估。

HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低，事实准确性越高。评测的24个主流大模型中包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。

中文大模型幻觉评测数据集HalluQA对24个主流大模型进行评测

从评测结果来看，解决幻觉问题对大模型来说尚有困难，有18个模型的无幻觉率低于50%。在幻觉消除上Ligthing News，具备检索增强能力的大模型优势明显，在所有模型评测中，文心一言在整体幻觉问题解决方面表现突出，排名第一，整体无幻觉率为69.33%。而GPT-4整体无幻觉率为53.11%，排名第六。

行业普遍认为，幻觉问题对于大模型在多个领域的落地都可能产生严重影响，包括客户服务、金融服务、法律决策和医疗诊断等。因此解决幻觉问题越好的大模型，才Ligthing News具备更强的产业落地价值。

相关推荐: 多国青年共话数字未来

◎本报记者史诗数字技术为青年发展赋能，也需要青年助力。11月9日，在2023年世界互联网大会“青年与数字未来”分论坛上，来自14个国家和地区的第一批18位“全球青年领军者”集中亮相，通过主题演讲、跨代对话等形式围绕互联网技术、产业与治理发出青年之声，凝聚全球…

作者 Tim Cook

实时中文新闻

大模型幻觉成应用落地难题评测显示文心一言解决幻觉应对能力好

作者Tim Cook

作者 Tim Cook

相关文章

最佳推荐：百度搜索词加“李彦宏”广告竟然自动消失：实测来了！

顶级机密： CES 2025：AMD预览RDNA 4架构，Radeon RX 9070系列显卡Q1发售

最新动向： 136 英寸 10000 尼特亮度，海信推旗下首款消费级 Micro LED 电视

发表回复取消回复

You missed

最佳推荐：百度搜索词加“李彦宏”广告竟然自动消失：实测来了！

顶级机密： CES 2025：AMD预览RDNA 4架构，Radeon RX 9070系列显卡Q1发售

最新动向： 136 英寸 10000 尼特亮度，海信推旗下首款消费级 Micro LED 电视

市场见解：海信发布全球首台116英寸RGB-Mini LED电视，色彩表现超越QD-OLED

作者Tim Cook

作者 Tim Cook

相关文章

发表回复 取消回复

You missed

发表回复取消回复