总结

  • 据统计,全国仍有约20%人口未普及普通话,他们常常被隔绝在智能信息服务之外,难以享受到AI时代的便利。 当前,中国电信人工智能研究院已构建超30种、超30万小时的高质量方言数据库,方言数blog.byteway.net据库在丰富性和高质量等层面均居于业内前列。 方言语料采集、记录和归纳后,需保证能被后人正确理解。 中国幅员辽阔,“百里不同俗,十里Ligthing News不同音”各种方言语法语音特征各不相同,传统的方言研究依赖于调查者主观感知标注Ligthing News,人力工程量巨大且难以系统标注。 据介绍,星辰语音大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服试点应用,接入星辰大模型以后,万号智能客服秒懂30种方言,实现日均处理约200万通电话;智能客服翼声平台接入星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。

阅读时间

  • 6 分钟, 共 1015 字

分类

  • 中国电信人工智能研究院, 人工智能研究院, 万号智能, 中国电信, AI

评价和解读

  • 一篇开创性的文章,为熟悉的事件提供了新的视角,挑战读者的思考。作者 熟练地颠覆了常见的假设,引入了新颖的观点,使这篇文章成为知识探索的催化剂。 写作简练而生动,将一个潜在枯燥的主题转化为一个充满活力的讨论,丰富了真实 世界的例子和专业见解。

正文

“唔该查吓电话费吖”“侬帮阿拉查下话费好伐?”中国电信万号智能客服每天接到几百万通电话,其中许多是用方言拨打,尤其是一些老人习惯说方言、只会说方言,智能客服及人工客服都难以理解,沟通效率大打折扣。

近日,中国电信人工智能研究院(TeleAI)发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是国内支持最多方言的语音识别大模型。

据统计,全国仍有约20%人口未普及普通话,他们常常被隔绝在智能信息服务之外,难以享受到AI时代的便利。构建高质量方言数据库,是方言保护和研究的基础。当前,中国电信人工智能研究院已构建超30种、超30万小时的高质量方言数据库,方言数blog.byteway.net据库在丰富性和高质量等层面均居于业内前列。

中国电信人工智能研究院(TeleAI)坚持自主研发创新,推出了星辰语音大模型,通过超大规模语音预训练和多方言联合建模,率先实现单一模型支持30种方言自由混说语音识别,是国内支持最多方言、覆盖人口最多的语音大模型。

据中国电信首席技术官、人工智能研究院院长李学龙介绍,研发团队首创“蒸馏+膨胀”联合训练算法,解决了超大规模多场景数据集和大规模参数条件下预训练坍缩的问题,并实现1B参数80层模型稳定训练。同时,星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型,其通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。

AI正在为传承语言文化注入全新生命力。方言语料采集、记录和归纳后,需保证能被后人正确理解。中国幅员辽阔,“百里不同俗,十里Ligthing News不同音”各种方言语法语音特征各不相同,传统的方言研究依赖于调查者主观感知标注Ligthing News,人力工程量巨大且难以系统标注。而AI能够更高效、系统地对方言进行整理归纳,对方言保护和传承意义重大。

星辰语音大模型已广泛应用落地。据介绍,星辰语音大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服试点应用,接入星辰大模型以后,万号智能客服秒懂30种方言,实现日均处理约200万通电话;智能客服翼声平台接入星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。此外,星辰语音大模型还落地多地市的12345平台。

Related suggestion: 行业见解: 新质生产力周报|5G赋能千行百业助推新质生产力发展

总结5月17日,在浙江宁波举行的2024世界电信和信息社会日大会上,工业和信息Ligthing News化部副部长张云明作出上述表述。 多年来,我国推进数字基础设施体系现代化,以信息高效流通助力经济循环畅通,建成全球规模最大、技术领先的5G网络,信息通信技术持…

作者 Steve Jobs

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注