在语音合成技术的赛道上,一场意想不到的变革正悄然发生。
一款名为HAM-TTS的新模型,在发音准确度、自然流畅度以及说话人的声音相似度等方面,超越了此前的顶级模型VALL-E,成为新的领军者。
而推动这一技术进步的背后力量,则来自一个让人意想不到的名字——吉利汽车。
这家以制造汽车闻名的企业,如今正以其强大的科技创新能力,引领着语音合成技术的发展方向。
吉利自主研发的HAM-TTS模型,全称为Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech,即基于token的零样本文字转语音分层声学建模,是吉利星睿AI大模型体系中的关键组成部分之一。
该技术特别适用于智能座舱内的语音交互,如语音助手的发音质量,是评价其性能的重要标准。
在评估语音助手的表现时,通常会考虑发音的准确性、说话风格的一致性、音调的一致性以及整体的质量。
在与SOTA模型VALL-E的对比测试中,HAM-TTS模型在4亿参数量级下,字符错误率降低了约1.5%,而在完整版的8亿参数模型中,这一数字更是达到了2.3%。
此外,在风格一致性、音调一致性和总体评分上,HAM-TTS模型也实现了大约10%的提升。
在智能座舱的应用场景中,无论是连接虚拟形象、定制人物设定、导航指示、新闻播报、故事讲述、直播互动等,都离不开星睿AI大模型的支持。
它不仅提高了声音的识别能力,还能确保声音的稳定性和连贯性,避免音色的突然变化。
无论是严肃的新闻播报、轻松的笑话分享,还是温馨的故事时间,星睿AI大模型都能够根据不同的场景智能调整语气、语调、停顿和情感等参数,为用户提供沉浸式、自然流畅的个性化语音交互体验。
值得注意的是,星睿语音模型还具备跨语言无缝切换的能力,无论用户输入何种语言或方言,都能保证音色的一致性,流畅地转换成普通话或其他语言,目前支持多种方言和跨语言的语音合成,包括但不限于四川话、粤语、东北话,甚至日语、韩语及东南亚语言。
尤其值得一提的是,星睿语音模型在声音复刻方面表现突出,只需短短3秒的样本输入,即可实现高质量的声音克隆,远超行业平均水平。
这不仅大大提升了用户体验,也在学术上具有重要意义,通过技术创新改善了TTS模型的性能和训练效率。
吉利之所以能在TTS领域取得如此成就,得益于其独特的技术路径。
传统的TTS模型通常遵循“文本处理-提取声学特征-语音合成”的流程,但在语音合成这一步骤中,模型往往因缺乏足够的语义信息而遇到挑战。
吉利则通过引入分层声学建模的方法,利用Text-to-LVS predictor(文本到隐空间变量序列预测器)来预测文本中蕴含的声学和语义信息,作为额外的输入信息,从而显著减少了发音错误和风格突变的现象。
此外,通过数据增强策略,吉利还解决了数据稀缺、版权和隐私等问题,进一步提高了模型的泛化能力和性能。
吉利在语音合成领域的突破,不仅体现了其在智能汽车领域的持续探索和技术积累,也为整个行业带来了新的启示。
在智能化转型的大潮中,吉利不仅在电动化方面取得了显著成绩,更在智能化领域发出了自己的强音。
随着吉利在卫星通信、芯片设计、操作系统开发等核心技术上的不断突破,这家汽车制造商正逐渐展现出其作为科技领导者的全面实力。
或许,是时候重新审视吉利,不仅仅作为一个汽车品牌,而是作为一个全方位科技创新的先锋了。