实时语音识别zhuan文字(人工智能语音识别系统操作)

人们通过聆听和观察说话者的嘴唇动作来感知言语。 那么,AI也可以吗? 事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部动作的镜头,是否可以提高语音识别系统的性能。Meta的研究人员开发了Audio-VisualHiddenUnitBERT(AV-HuBERT),这是一…

大家根据倾听和观查讲话者的嘴巴姿势来认知语言。

那麼,AI 也行吗?

AI 看唇语,在嘈杂场景的语音识别准确率高达75%

实际上,研究表明视觉效果案件线索在外语学习中起着至关重要的功效。比较之下,人工智能技术语言表达识别技术主要是构建在音频上。并且要很多数据来训练,通常必须数十万钟头的纪录。

为了更好地科学研究视觉冲击,尤其是唇部姿势的画面,是不是可以提升语音识别系统的性能。Meta 的分析工作人员研发了 Audio-Visual Hidden Unit BERT (AV-HuBERT),这是一个根据观看视频学习培训和听大家讲话来了解语言表达的架构。

Meta 宣称 AV-HuBERT 比应用同样总数转录量的最好视觉语音识别系统准确度高 75%。除此之外,该公司表明,AV-HuBERT 应用十分之一的标识数据好于之前最好是的镜头语言识别技术,这促使它很有可能对音视频数据非常少的语言表达具备不确定性的主要用途。

Meta AI 科学研究生物学家 Abdelrahman Mohamed 表明:“在未来,像 AV-HuBERT 那样的 AI 架构可用来提升语音识别系统在噪杂的日常标准下的性能,例如,在聚餐上或在熙攘的街边中完成的互动交流。智能机中的小助手、增强现实眼镜和配置监控摄像头的智能化音箱,例如 Alexa Echo Show 还可以在此项技术性中获益。”

现阶段,Meta 已将有关编码开源系统到 GitHub。

AV-HuBERT

Meta 并非第一个将人工智能技术于读唇语问题的企业。2016年,剑桥大学的分析工作人员建立了一个系统软件,该系统在一些检测中的准确度几乎是认真负责的唇阅读者的二倍,而且可以即时地解决视频。2017年,Alphabet 集团旗下的 DeepMind 在千余钟头的节目中训练了一个系统软件,在检测集在可以恰当翻泽约 50%的英语单词而并没有不正确,远远高于人们权威专家的 12.4%。

可是剑桥大学和 DeepMind 的模型,与很多后面的唇读模型一样,在他们可以分辨的语汇范畴内受限制。这种模型还要与转录本匹配的数据集才可以开展训练,并且他们没法解决视频中一切音箱的音频。

有点儿与众不同的是, AV-HuBERT 运用了无监管或自身监管的学习培训。根据监督学习,像 DeepMind 那样的优化算法在标识的实例数据上开展训练,直到他们可以检查到实例和特殊导出中间的潜在性关联。例如,系统软件也许会被训练在表明柯基的图片时写下英语单词「dog」。殊不知,AV-HuBERT 通过自学对未标识的数据开展归类,解决数据以从其原有构造中学习培训。

AI 看唇语,在嘈杂场景的语音识别准确率高达75%

AV-HuBERT 也是多模态的,因为它根据一系列的音频和嘴唇姿势提醒来学习培训认知语言表达。根据融合讲话全过程中嘴巴和牙的活动等案件线索及其听觉系统信息内容,AV-HuBERT 可以捕获这二种数据种类中间的微小关系。

最开始的 AV-HuBERT 模型在 30 钟头的 TED Talk 视频上开展了训练,大大的低于以前最优秀模型的 31,000 钟头的训练时长。可是,虽然在偏少的数据上开展了训练,AV-HuBERT 的英语单词差错率 (WER)(考量语音识别技术性能的指标值)在能够看见但听不见讲话者的状况下略好于旧模型的 33.6%,前面一种为 32.5%。(WER 的计算公式是将不正确辨识的词汇数除于总英语单词数;32.5% 转换为大概每 30 个英语单词发生一个不正确。)在 433 钟头的 TED 演说训练进一步将 AV-HuBERT 的 WER 减少到 28.6%。

一旦 AV-HuBERT 非常好地了解了数据中间的结构特征和关联性,科学研究工作人员就可以在未标识的数据上进一步训练它。上传入 YouTube 的 2,442 钟头名人英语视频,这不但使 WER 降低到 26.9%,并且 Meta 表明,它说明只要少许标识数据来训练特殊应用软件(例如,当多的人一起讲话时)或不一样語言的架构。

实际上,Meta 宣称当环境中播放视频洪亮的歌曲或噪声时,AV-HuBERT 在鉴别一个人的视频语音层面比纯音频模型好约 50%,当视频语音和环境噪声一样洪亮时,AV-HuBERT 的 WER 为 3.2%,而以前的最好多方式模型为 25.5%。

潜在性的缺陷

在很多层面看来,AV-HuBERT 代表着 Meta 在用以繁杂每日任务的无监管、多方式技术性层面持续上升的项目投资。

Meta 表明 AV-HuBERT 可以为开发设计“低网络资源”语言表达的会话模型开拓概率。该公司建议,AV-HuBERT 还可用以为有语言发育迟缓的人建立语音识别系统,及其检验深层仿冒和为虚拟现实技术化身为形成真实的嘴巴健身运动。

在各层面数据上,新办法的转现确实很精彩纷呈,但也是有专家学者有一些忧虑。

在其中,华盛顿大学的人工智能技术社会学权威专家Os Keye就提及,针对因身患唐氏综合症、脑中风等病症而致使脸部偏瘫的群体,依靠读唇的语音识别技术也有实际意义吗?

在微软公司和卡内基梅隆高校的一篇文章中,明确提出了人工智能技术公平公正科学研究路线地图,强调类似 AV-HuBERT 的脸部数据分析系统的一些领域很有可能不适合用以身患唐氏综合症、软骨发育不全(危害骨骼生长)和“造成特征脸部差别的其它标准”等。

Mohamed 注重 AV-HuBERT 只关心嘴唇地区来捕获嘴唇健身运动,而不是全部脸部。他填补说,与大部分 AI 模型相近,AV-HuBERT 的性能将“与训练数据中不一样群体的标志性样版总数正相关”。

“为了更好地评定大家的方式,大家应用了公布可以用的 LRS3 数据集,该数据集由剑桥大学科学研究工作人员于 2018 年公布给予的 TED Talk 视频构成。因为该数据集不意味着残废讲话者,因而大家并没有预估性能降低的特殊百分数,”Mohamed 说。

Meta 表明,它将“再次在声音分贝和讲话者重合很普遍的日常情景中开展标准检测和开发设计改善视觉语音识别技术模型的方式。”

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年5月13日 下午2:01
下一篇 2022年5月13日 下午2:02

相关推荐

  • 青年人创业成功的例子,年轻人创业最喜欢的五个创业项目

    1、心理咨询 在我们这个以竞争与压力为标志的社会中,谁能说自己没有过一时的甚至是长久的迷惘与困惑,这种情况得不到改善的严重后果就是我国每年自杀而亡的人数竟有25-28万之巨。据中国卫生部公布的资料,我国各种心理和精神疾病患者已高达1600万,占总人口的1.23%,而青少年中有各种学习、情绪和行为障碍等心理健康问题的人已经达到了3000万。这种与对心理咨询师巨大需求相对应的是我国严重紧缺的心理咨询专…

    2022年5月31日
    710
  • 个人网上申请商标需要什么资料,个人网上注册商标流程

    很多人想注册商标,却不知道有什么流程,这不,小编给你整理出来了~ 简单流程:商标查询→申请文件准备→提交申请→缴纳商标注册费用→商标形式审查→下发商标受理通知书→商标实质审查→商标公告→颁发商标证书。 商标查询 商标查询是指商标注册申请人或其代理人在提出注册申请前,对其申请的商标是否与在先权利商标有无相同或近似的查询工作。 商标审查 商标审查分形式审查和实质审查。 形式审查: 审查通过–下发受理…

    2022年6月13日
    590
  • 宽带连接629错误的解决办法

    使用电脑宽带拨号上网时,突然遇到连接错误,提示“错误629:连接被远程计算机终止”。遇到629的错误,基本上都是因为被宽带公司给你断开了,不过出现这个错误的原因有很多。下面分享一下宽带629连接错误的原因以及解决办法。

    2022年7月25日
    890
  • 适合中学生用的手机有哪些,适合学生党的十款手机推荐

    每年的开学季都是学生换、电脑的高峰期,近期在我们网站中有不少网友留言问到“学生买什么手机好?”其实大多数用户在挑选新机的时候都是先看外观手感设计,再看看配置方面是否过强,最后还有最重要的一点就是价格是否能接受。当然,手机不止是看颜值,更要看这手机够不够你喜欢。从自拍、耐看外观手感、性能玩游戏和性价比等方面考虑,笔者推荐以下6款能满足学生党颜值热门手机。 本篇文章推荐的产品包括: 推荐理由:高颜值、…

    2022年6月11日
    1980
  • 软件设计说明书模板(软件设计规格说明书)

    目录 1.引言 1.1编写目的 1.2项目背景 1.3定义 1.4参考资料 2.总体设计 2.1需求概述 2.2软件结构 3.程序描述 3.1功能 3.2性能 3.3输入项目 3.4输出项目 3.5算法 3.6程序逻辑 3.7接口 3.8存储分配 3.9限制条件 3.10测试要点 1.引言 1.1编写目的 【阐明编写详细设计说明书的目的,指明读者对象。】 1.2项目背景 【应包括项目的来源和主管部…

    2022年5月7日
    840
  • 如何看懂股票图,三分钟让你看懂股票走势

    我们常说,如何看明白一只股票呢,简单来说。可以分为以下几步: 第一,行业分析。分析任何一个公司的时候,首先应该从这个企业所在的行业,或者企业某一板块的业务所在的行业入手。 第二,行业分析完以后,我们来看看公司分析。公司分析我们主要是基于公司年报,半年报,季报,机构调研报告(投资者关系互动平台可查),分析研究报告这些渠道获得。其中最主要的其实就是上市公司年报,半年报,季报。这里面最主要的就是三大财务…

    2022年10月4日
    440
  • 快手营销策略都有哪些,盘点平台的运营模式和销售思路

    10月24日,在北京举行的快手2019Fe+新商业峰会上,快手正式宣布将营销平台全面升级为“磁力引擎”,并表示在2020年帮助合作伙伴获得100亿营收。 据快手官方介绍,磁力引擎代表快手上“人+内容”的强社交关系,快手将通过强化AI+DA的技术能力,以人、内容、流量、创意为四大驱动力,全面打通公域和私域流量。也就是说,快手要继续释放老铁经济,加速商业化。 快手营销平台于2016年下半年开始投入研发…

    2022年5月20日
    950
  • dior粉饼好用吗(四款被公认最好用的粉饼推荐)

    中性肤质最爱的几款粉饼 雅蔻太阳神双色铜光蜜粉饼 2)由先进超微细粉末碾压而成的古铜色蜜粉饼,给予肌肤无与伦比的丝柔触感。3)不含任何化学原料添加剂,从多种植物内提取天然的美黑颜料,使用时更具亲肤性,呈现自然古铜肤色。4)最新科技碾压的粉末持久不易脱妆,更具有防水效果,更适合夏天使用。 水果之乡维生素-C干湿两用粉饼 使用太阳屏保护膜粉,从紫外线中保护肌肤,而且含有纯维他命-C,提高肌肤组织的活力…

    2022年9月25日
    510
  • 建设网站公司哪家强,建设网站知名公司排行

    现在的网站不在只是公司的形象展示,更多用于线上运营推广,为企业线上业绩带来前所未有的助力作用!网站建设公司十佳排行榜!网站建设公司制作网站的最佳流程!小编今天就带大家一起共同分享,希望能为大家带来实质性的作用! 网站建设域名的购买 一.域名的购买。 域名都不陌生,就是地址栏里面输入的那一串字母,域名是需要注册购买的,建议域名自己注册购买,不要找代理商,现在的域名注册平台,自己注册一个账号就可以选购…

    2022年7月6日
    520
  • 苹果手机怎么下铃声,一键切换自己喜爱的铃声

    经常收到后台有人问iPhone手机如何修改铃声,超超君为大家分享一个超级无敌简单的在iPhone手机直接更换铃声的方法。 需要用到的工具: 库乐队(iOS12.1版本) 酷音铃声 下载好所需的工具,打开酷音铃声,可以选择自己喜欢的铃声来进行设置,选择好铃声之后点击设铃声选项,点击设铃声。直接拷贝到库乐队 自动跳转到库乐队软件,需要时间上传铃声,请耐心等待,上传成功之后,长按刚刚下载自己喜欢的铃声,…

    2022年10月8日
    530

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信