大家根据倾听和观查讲话者的嘴巴姿势来认知语言。
那麼,AI 也行吗?
实际上,研究表明视觉效果案件线索在外语学习中起着至关重要的功效。比较之下,人工智能技术语言表达识别技术主要是构建在音频上。并且要很多数据来训练,通常必须数十万钟头的纪录。
为了更好地科学研究视觉冲击,尤其是唇部姿势的画面,是不是可以提升语音识别系统的性能。Meta 的分析工作人员研发了 Audio-Visual Hidden Unit BERT (AV-HuBERT),这是一个根据观看视频学习培训和听大家讲话来了解语言表达的架构。
Meta 宣称 AV-HuBERT 比应用同样总数转录量的最好视觉语音识别系统准确度高 75%。除此之外,该公司表明,AV-HuBERT 应用十分之一的标识数据好于之前最好是的镜头语言识别技术,这促使它很有可能对音视频数据非常少的语言表达具备不确定性的主要用途。
Meta AI 科学研究生物学家 Abdelrahman Mohamed 表明:“在未来,像 AV-HuBERT 那样的 AI 架构可用来提升语音识别系统在噪杂的日常标准下的性能,例如,在聚餐上或在熙攘的街边中完成的互动交流。智能机中的小助手、增强现实眼镜和配置监控摄像头的智能化音箱,例如 Alexa Echo Show 还可以在此项技术性中获益。”
现阶段,Meta 已将有关编码开源系统到 GitHub。
AV-HuBERT
Meta 并非第一个将人工智能技术于读唇语问题的企业。2016年,剑桥大学的分析工作人员建立了一个系统软件,该系统在一些检测中的准确度几乎是认真负责的唇阅读者的二倍,而且可以即时地解决视频。2017年,Alphabet 集团旗下的 DeepMind 在千余钟头的节目中训练了一个系统软件,在检测集在可以恰当翻泽约 50%的英语单词而并没有不正确,远远高于人们权威专家的 12.4%。
可是剑桥大学和 DeepMind 的模型,与很多后面的唇读模型一样,在他们可以分辨的语汇范畴内受限制。这种模型还要与转录本匹配的数据集才可以开展训练,并且他们没法解决视频中一切音箱的音频。
有点儿与众不同的是, AV-HuBERT 运用了无监管或自身监管的学习培训。根据监督学习,像 DeepMind 那样的优化算法在标识的实例数据上开展训练,直到他们可以检查到实例和特殊导出中间的潜在性关联。例如,系统软件也许会被训练在表明柯基的图片时写下英语单词「dog」。殊不知,AV-HuBERT 通过自学对未标识的数据开展归类,解决数据以从其原有构造中学习培训。
AV-HuBERT 也是多模态的,因为它根据一系列的音频和嘴唇姿势提醒来学习培训认知语言表达。根据融合讲话全过程中嘴巴和牙的活动等案件线索及其听觉系统信息内容,AV-HuBERT 可以捕获这二种数据种类中间的微小关系。
最开始的 AV-HuBERT 模型在 30 钟头的 TED Talk 视频上开展了训练,大大的低于以前最优秀模型的 31,000 钟头的训练时长。可是,虽然在偏少的数据上开展了训练,AV-HuBERT 的英语单词差错率 (WER)(考量语音识别技术性能的指标值)在能够看见但听不见讲话者的状况下略好于旧模型的 33.6%,前面一种为 32.5%。(WER 的计算公式是将不正确辨识的词汇数除于总英语单词数;32.5% 转换为大概每 30 个英语单词发生一个不正确。)在 433 钟头的 TED 演说训练进一步将 AV-HuBERT 的 WER 减少到 28.6%。
一旦 AV-HuBERT 非常好地了解了数据中间的结构特征和关联性,科学研究工作人员就可以在未标识的数据上进一步训练它。上传入 YouTube 的 2,442 钟头名人英语视频,这不但使 WER 降低到 26.9%,并且 Meta 表明,它说明只要少许标识数据来训练特殊应用软件(例如,当多的人一起讲话时)或不一样語言的架构。
实际上,Meta 宣称当环境中播放视频洪亮的歌曲或噪声时,AV-HuBERT 在鉴别一个人的视频语音层面比纯音频模型好约 50%,当视频语音和环境噪声一样洪亮时,AV-HuBERT 的 WER 为 3.2%,而以前的最好多方式模型为 25.5%。
潜在性的缺陷
在很多层面看来,AV-HuBERT 代表着 Meta 在用以繁杂每日任务的无监管、多方式技术性层面持续上升的项目投资。
Meta 表明 AV-HuBERT 可以为开发设计“低网络资源”语言表达的会话模型开拓概率。该公司建议,AV-HuBERT 还可用以为有语言发育迟缓的人建立语音识别系统,及其检验深层仿冒和为虚拟现实技术化身为形成真实的嘴巴健身运动。
在各层面数据上,新办法的转现确实很精彩纷呈,但也是有专家学者有一些忧虑。
在其中,华盛顿大学的人工智能技术社会学权威专家Os Keye就提及,针对因身患唐氏综合症、脑中风等病症而致使脸部偏瘫的群体,依靠读唇的语音识别技术也有实际意义吗?
在微软公司和卡内基梅隆高校的一篇文章中,明确提出了人工智能技术公平公正科学研究路线地图,强调类似 AV-HuBERT 的脸部数据分析系统的一些领域很有可能不适合用以身患唐氏综合症、软骨发育不全(危害骨骼生长)和“造成特征脸部差别的其它标准”等。
Mohamed 注重 AV-HuBERT 只关心嘴唇地区来捕获嘴唇健身运动,而不是全部脸部。他填补说,与大部分 AI 模型相近,AV-HuBERT 的性能将“与训练数据中不一样群体的标志性样版总数正相关”。
“为了更好地评定大家的方式,大家应用了公布可以用的 LRS3 数据集,该数据集由剑桥大学科学研究工作人员于 2018 年公布给予的 TED Talk 视频构成。因为该数据集不意味着残废讲话者,因而大家并没有预估性能降低的特殊百分数,”Mohamed 说。
Meta 表明,它将“再次在声音分贝和讲话者重合很普遍的日常情景中开展标准检测和开发设计改善视觉语音识别技术模型的方式。”
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。