当前位置: 网站首页 技术文章 正文

当心!AI能读懂你的唇语,悄悄话可不保险了!

来源:互联网 发布时间:2024-09-18 07:50:50

耳语也可能不再是秘密,AI正在倾听!(小声说)

近日,国外的一款能够解读唇语的人工智能软件引起了广泛关注!

其表现令人惊叹:

当布莱克·莱弗利在红毯上低声说出“好紧张”时,尽管她带着笑容,使得一般人难以捕捉到她的唇语,但这款AI却能准确无误地识别出来。

即便是一脸笑容、几乎只能看到一口白牙(并非如此)的侃爷,他的唇语也被这款软件轻易破译。

这激发了网民们的无限遐想:

有求“联名”的网友表示:希望它能和Siri整合,这样就不用对着设备大声喊叫了!

还有些技术派网友则提出:我打算用它来测试一下“座机画质”视频的效果!

当然,也有担忧隐私安全的网友感叹:这让我有些不安,我觉得还是戴上面具比较保险。(忧心忡忡)

实测 Readtheirlips 的表现

量子位团队收集了几段视频,进行了Readtheirlips的实际体验。

首先尝试的是奥特曼在斯坦福大学的一次访谈,对比了软件生成的文字和原始对话内容,发现它们几乎完全一致。

接着是老马的视频,虽然他表情丰富,但Readtheirlips依然能够准确解析。

然而,在面对喜欢用手势表达想法的小扎时,Readtheirlips遇到了挑战,由于视频中的人物并未始终正面朝向镜头,导致识别失败。

同样地,当视频主角变为语速较快的卡帕西时,软件生成的文本出现了错误。(左侧为Readtheirlips生成结果,右侧为其他文字处理软件的结果)

最后,我们尝试了一段长达16分钟的视频,但Readtheirlips未能完成任务,显示出无法识别的信息。

综上所述:

Readtheirlips更适合处理长度在一分钟左右的视频。

正如他们所言,如果视频中人物的脸部未正对镜头,模型便难以准确解析。

对于语速过快的视频内容,软件仅能部分识别。

开发团队对此解释道:

同时,关于视频时长的限制,他们这样回应:

揭秘AI如何“听懂”唇语

看完实际演示后,让我们来探讨一下Readtheirlips的技术原理。

看看它是如何捕捉并解析人类唇语的:

研究小组利用大量已标记的数据(包括已知的唇部动作及其对应的文字内容)来训练模型。

用户需要上传一段包含说话者面部特写的视频,特别是嘴巴的动作。

接下来,模型会对视频中的嘴部动作进行分析:首先通过面部识别确定嘴唇位置,然后提取嘴唇的几何特征,(如形状、开口度、移动路径等),最后分析嘴唇在讲话过程中的动态变化。(速度、方向和形状的变化)

随后,模型将提取的特征与训练数据中的特征进行匹配,以识别视频中说话者的话语。

将这些识别出的单词或短语拼接成完整的句子,并进行上下文理解和语法校验,确保准确性。

最终,识别出的内容将以文本的形式呈现。

背后的团队

Readtheirlips是由初创公司Symphonic Labs开发的。

根据LinkedIn上的信息,该公司成立于今年4月,目前团队规模不足十人。

在此之前,他们还推出了一款名为Symphonic的软件,可以通过读取唇语实现实时文本转录。

当心!AI能读懂你的唇语,悄悄话可不保险了!

感兴趣的读者可以点击下方链接体验这两款软件。

相关教程