当前位置：网站首页技术文章正文

吉利成车圈AI大黑马，自研语音模型性能猛涨10%，超越SOTA

来源：互联网发布时间：2024-09-25 17:19:49

在语音合成技术的赛道上，一场意想不到的变革正悄然发生。

一款名为HAM-TTS的新模型，在发音准确度、自然流畅度以及说话人的声音相似度等方面，超越了此前的顶级模型VALL-E，成为新的领军者。

而推动这一技术进步的背后力量，则来自一个让人意想不到的名字——吉利汽车。

这家以制造汽车闻名的企业，如今正以其强大的科技创新能力，引领着语音合成技术的发展方向。

吉利自主研发的HAM-TTS模型，全称为Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech，即基于token的零样本文字转语音分层声学建模，是吉利星睿AI大模型体系中的关键组成部分之一。

该技术特别适用于智能座舱内的语音交互，如语音助手的发音质量，是评价其性能的重要标准。

在评估语音助手的表现时，通常会考虑发音的准确性、说话风格的一致性、音调的一致性以及整体的质量。

在与SOTA模型VALL-E的对比测试中，HAM-TTS模型在4亿参数量级下，字符错误率降低了约1.5%，而在完整版的8亿参数模型中，这一数字更是达到了2.3%。

此外，在风格一致性、音调一致性和总体评分上，HAM-TTS模型也实现了大约10%的提升。

在智能座舱的应用场景中，无论是连接虚拟形象、定制人物设定、导航指示、新闻播报、故事讲述、直播互动等，都离不开星睿AI大模型的支持。

它不仅提高了声音的识别能力，还能确保声音的稳定性和连贯性，避免音色的突然变化。

吉利成车圈AI大黑马，自研语音模型性能猛涨10%，超越SOTA

无论是严肃的新闻播报、轻松的笑话分享，还是温馨的故事时间，星睿AI大模型都能够根据不同的场景智能调整语气、语调、停顿和情感等参数，为用户提供沉浸式、自然流畅的个性化语音交互体验。

值得注意的是，星睿语音模型还具备跨语言无缝切换的能力，无论用户输入何种语言或方言，都能保证音色的一致性，流畅地转换成普通话或其他语言，目前支持多种方言和跨语言的语音合成，包括但不限于四川话、粤语、东北话，甚至日语、韩语及东南亚语言。

尤其值得一提的是，星睿语音模型在声音复刻方面表现突出，只需短短3秒的样本输入，即可实现高质量的声音克隆，远超行业平均水平。

这不仅大大提升了用户体验，也在学术上具有重要意义，通过技术创新改善了TTS模型的性能和训练效率。

吉利之所以能在TTS领域取得如此成就，得益于其独特的技术路径。

传统的TTS模型通常遵循“文本处理-提取声学特征-语音合成”的流程，但在语音合成这一步骤中，模型往往因缺乏足够的语义信息而遇到挑战。

吉利则通过引入分层声学建模的方法，利用Text-to-LVS predictor（文本到隐空间变量序列预测器）来预测文本中蕴含的声学和语义信息，作为额外的输入信息，从而显著减少了发音错误和风格突变的现象。

此外，通过数据增强策略，吉利还解决了数据稀缺、版权和隐私等问题，进一步提高了模型的泛化能力和性能。

吉利在语音合成领域的突破，不仅体现了其在智能汽车领域的持续探索和技术积累，也为整个行业带来了新的启示。

在智能化转型的大潮中，吉利不仅在电动化方面取得了显著成绩，更在智能化领域发出了自己的强音。

随着吉利在卫星通信、芯片设计、操作系统开发等核心技术上的不断突破，这家汽车制造商正逐渐展现出其作为科技领导者的全面实力。

吉利成车圈AI大黑马，自研语音模型性能猛涨10%，超越SOTA

或许，是时候重新审视吉利，不仅仅作为一个汽车品牌，而是作为一个全方位科技创新的先锋了。

相关教程

【AI+音乐】Musiio：使用AI 帮助音乐行业更有效地策划曲目【AIHub导读】今天分享的是AI在音乐行业的应用，主角是来自新加坡的创业公司Musiio，我们来看下AI究竟是如何发挥作用的。Musiio团队文章目录
技术文章 06-29
谷歌发布Gemini 1.5 Pro支持原生音频理解。创建或访问您的API密钥，开始构建。音频和视频模态的新用例：Gemini 1 5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中的
技术文章 06-24
跟着天美传媒深入了解一卡二卡三乱码游戏的独特玩法跟着天美传媒深入了解一卡二卡三乱码游戏的独特玩法在游戏的世界里，总有一些创新和独特的玩法能够吸引玩家的眼球。今天，我们将跟随天美传
技术文章 09-20

产业资讯

游戏下载 +

近期热点 +

最新技术文章 +

09-25

20秒内，AI就能给你整出两版界面设计！只需短短20秒，用户便能获得两份精心设计的UI草图。这一令人惊叹的技术突破，正是来自云栖大会上的最新分享。作为Motiff妙多的研发领头人，
09-25

体育课新动态：结合游戏的创新教学法概览体育课新动态：结合游戏的创新教学法概览在现代教育中，体育课不仅仅是简单的身体锻炼，它还承担着培养学生团队合作、竞争意识和健康生活方
09-25

草莓榴莲如何成为游戏设计的新潮流？百度上的热帖解析！草莓榴莲如何成为游戏设计的新潮流？百度上的热帖解析！在游戏设计领域，创新和独特性一直是吸引玩家的关键因素。最近，一种看似不相关的元
09-25

阿里自家解码器Ali266让高通骁龙水友的AI电脑首次支持H.266超清播放 9月20日最新报道，在近日落幕的国际广播电视展（IBC）上，高通技术公司展示了一项基于阿里巴巴自主研发的Ali266解码器的先进视频解码技术。
09-25

服务器爆了！可灵1.5版上线：免费升1080P，一次生成4段视频在粉丝们的翘首期盼中，可灵终于迎来了其备受瞩目的1 5版本更新！此次升级不仅引入了最新的技术模型，还显著提升了视觉表现力和动态效果。