实时语音识别zhuan文字（人工智能语音识别系统操作）

雷电将军 • 2022年5月13日下午2:02 • 专栏 • 阅读 146

人们通过聆听和观察说话者的嘴唇动作来感知言语。那么，AI也可以吗？事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。为了研究视觉效果，尤其是嘴部动作的镜头，是否可以提高语音识别系统的性能。Meta的研究人员开发了Audio-VisualHiddenUnitBERT(AV-HuBERT)，这是一…

大家根据倾听和观查讲话者的嘴巴姿势来认知语言。

那麼，AI 也行吗？

实际上，研究表明视觉效果案件线索在外语学习中起着至关重要的功效。比较之下，人工智能技术语言表达识别技术主要是构建在音频上。并且要很多数据来训练，通常必须数十万钟头的纪录。

为了更好地科学研究视觉冲击，尤其是唇部姿势的画面，是不是可以提升语音识别系统的性能。Meta 的分析工作人员研发了 Audio-Visual Hidden Unit BERT (AV-HuBERT)，这是一个根据观看视频学习培训和听大家讲话来了解语言表达的架构。

Meta 宣称 AV-HuBERT 比应用同样总数转录量的最好视觉语音识别系统准确度高 75%。除此之外，该公司表明，AV-HuBERT 应用十分之一的标识数据好于之前最好是的镜头语言识别技术，这促使它很有可能对音视频数据非常少的语言表达具备不确定性的主要用途。

Meta AI 科学研究生物学家 Abdelrahman Mohamed 表明：“在未来，像 AV-HuBERT 那样的 AI 架构可用来提升语音识别系统在噪杂的日常标准下的性能，例如，在聚餐上或在熙攘的街边中完成的互动交流。智能机中的小助手、增强现实眼镜和配置监控摄像头的智能化音箱，例如 Alexa Echo Show 还可以在此项技术性中获益。”

现阶段，Meta 已将有关编码开源系统到 GitHub。

AV-HuBERT

Meta 并非第一个将人工智能技术于读唇语问题的企业。2016年，剑桥大学的分析工作人员建立了一个系统软件，该系统在一些检测中的准确度几乎是认真负责的唇阅读者的二倍，而且可以即时地解决视频。2017年，Alphabet 集团旗下的 DeepMind 在千余钟头的节目中训练了一个系统软件，在检测集在可以恰当翻泽约 50%的英语单词而并没有不正确，远远高于人们权威专家的 12.4%。

可是剑桥大学和 DeepMind 的模型，与很多后面的唇读模型一样，在他们可以分辨的语汇范畴内受限制。这种模型还要与转录本匹配的数据集才可以开展训练，并且他们没法解决视频中一切音箱的音频。

有点儿与众不同的是， AV-HuBERT 运用了无监管或自身监管的学习培训。根据监督学习，像 DeepMind 那样的优化算法在标识的实例数据上开展训练，直到他们可以检查到实例和特殊导出中间的潜在性关联。例如，系统软件也许会被训练在表明柯基的图片时写下英语单词「dog」。殊不知，AV-HuBERT 通过自学对未标识的数据开展归类，解决数据以从其原有构造中学习培训。

AV-HuBERT 也是多模态的，因为它根据一系列的音频和嘴唇姿势提醒来学习培训认知语言表达。根据融合讲话全过程中嘴巴和牙的活动等案件线索及其听觉系统信息内容，AV-HuBERT 可以捕获这二种数据种类中间的微小关系。

最开始的 AV-HuBERT 模型在 30 钟头的 TED Talk 视频上开展了训练，大大的低于以前最优秀模型的 31,000 钟头的训练时长。可是，虽然在偏少的数据上开展了训练，AV-HuBERT 的英语单词差错率 (WER)（考量语音识别技术性能的指标值）在能够看见但听不见讲话者的状况下略好于旧模型的 33.6%，前面一种为 32.5%。（WER 的计算公式是将不正确辨识的词汇数除于总英语单词数；32.5% 转换为大概每 30 个英语单词发生一个不正确。）在 433 钟头的 TED 演说训练进一步将 AV-HuBERT 的 WER 减少到 28.6%。

一旦 AV-HuBERT 非常好地了解了数据中间的结构特征和关联性，科学研究工作人员就可以在未标识的数据上进一步训练它。上传入 YouTube 的 2,442 钟头名人英语视频，这不但使 WER 降低到 26.9%，并且 Meta 表明，它说明只要少许标识数据来训练特殊应用软件（例如，当多的人一起讲话时）或不一样語言的架构。

实际上，Meta 宣称当环境中播放视频洪亮的歌曲或噪声时，AV-HuBERT 在鉴别一个人的视频语音层面比纯音频模型好约 50%，当视频语音和环境噪声一样洪亮时，AV-HuBERT 的 WER 为 3.2%，而以前的最好多方式模型为 25.5%。

潜在性的缺陷

在很多层面看来，AV-HuBERT 代表着 Meta 在用以繁杂每日任务的无监管、多方式技术性层面持续上升的项目投资。

Meta 表明 AV-HuBERT 可以为开发设计“低网络资源”语言表达的会话模型开拓概率。该公司建议，AV-HuBERT 还可用以为有语言发育迟缓的人建立语音识别系统，及其检验深层仿冒和为虚拟现实技术化身为形成真实的嘴巴健身运动。

在各层面数据上，新办法的转现确实很精彩纷呈，但也是有专家学者有一些忧虑。

在其中，华盛顿大学的人工智能技术社会学权威专家Os Keye就提及，针对因身患唐氏综合症、脑中风等病症而致使脸部偏瘫的群体，依靠读唇的语音识别技术也有实际意义吗？

在微软公司和卡内基梅隆高校的一篇文章中，明确提出了人工智能技术公平公正科学研究路线地图，强调类似 AV-HuBERT 的脸部数据分析系统的一些领域很有可能不适合用以身患唐氏综合症、软骨发育不全（危害骨骼生长）和“造成特征脸部差别的其它标准”等。

Mohamed 注重 AV-HuBERT 只关心嘴唇地区来捕获嘴唇健身运动，而不是全部脸部。他填补说，与大部分 AI 模型相近，AV-HuBERT 的性能将“与训练数据中不一样群体的标志性样版总数正相关”。

“为了更好地评定大家的方式，大家应用了公布可以用的 LRS3 数据集，该数据集由剑桥大学科学研究工作人员于 2018 年公布给予的 TED Talk 视频构成。因为该数据集不意味着残废讲话者，因而大家并没有预估性能降低的特殊百分数，”Mohamed 说。

Meta 表明，它将“再次在声音分贝和讲话者重合很普遍的日常情景中开展标准检测和开发设计改善视觉语音识别技术模型的方式。”

雷电将军

高清视频转换软件（视频分辨率转换工具）

上一篇 2022年5月13日下午2:01

anaconda安装matplotlib失败（python数据分析与可视化）

下一篇 2022年5月13日下午2:02

专栏

为什么苹果手机充电充不进，小白自检小妙招

用户在使用iPhone8的过程中，经常会遇到手机不充电的情况，一般而言，手机充不进去电可能是电池接触不良、数据线故障、充电器有问题，但是也不排除硬件故障导致的。客户送来一台iPhone8，说是手机充电显示图标，但是充不进去电，一起来看看具体的情况吧！插充电器测试充电电流只有0.1mA，把屏拆下，用电源适配器上电，开机电流上到100多毫安，掉电不开机。拆下主板，发现充电芯片被动过，但其他地方没有…

2022年9月16日
01030
专栏

最好的cpu型号推荐（最好用的cpu推荐）

cpu作为电脑的“大脑”，代表着电脑的演算能力和反应速度，无论是工作还是玩游戏，cpu的性能都起了关键作用。最近国外知名的PC游戏网站PCGAMER根据今年各品牌CPU的实际体验，评选出了六款最佳的CPU。英特尔经历了几代的失意后，在今年重回巅峰。玩游戏最好的CPU——英特尔酷睿i5-12600K 英特尔的第12代AlderLake处理器是英特尔的重要回归。特别是酷睿i5-12600K，它不仅提…

2022年5月3日
0980
专栏

地摊上好卖的货有哪些，适合摆地摊的三大暴利产品

有些大学生的课余时间比较多，都会选择在校外兼职，但现在由于疫情的影响，工作并不是很好找，那么，就可以自主创业，打工不如当老板，尝试一下摆地摊，也能贴补学费和生活费。今天就给大家推荐几种地摊好卖的小商品，也会带大家了解一下批发市场的潜规则。地摊上常见的暴利小商品 1、儿童玩具二胎的开放实现了人口的增长，小孩子都喜欢各种各样的玩具，现在不管走到哪里，都能看到非常多的母婴店内都摆放的有玩具展柜，如…

2022年8月18日
0580
专栏

现在性价比最高的手机是什么，这三款买了绝对不后悔

讲实话，现在很多人买手机都挺挑的，花了钱就要买到能满足自己心意的手机，这也是没有毛病的。其中，性价比高的手机一般都是很受人追捧的，近期的手机市场挺热闹的，有不少性价比高的5G手机到来。看来看去，觉得这3款性价比高的手机最值得买，性能强体验好价格亲民，款款精品！荣耀30系列华为作为国产手机品牌的领头羊，荣耀自然也是在紧跟大哥的步伐，推出了很多像样的机型，比如这个荣耀30系列，就挺讨人喜欢的。分为…

2022年10月11日
0450
专栏

学生怎样才能赚钱最快，大学生赚钱的6个方法

在这篇文章中，根据我自己的经验，你将找到在大学期间业余时间赚钱的所有最佳方法。如果你也有新的方式，请在评论中分享你自己的想法！出售二手课程书第一种赚钱的好方法是在年底购买其他学生的教科书，然后在新生入学一周后出售给他们-在新入学的学生知道他们需要它们时！你既可以在校园内做广告，也可以在咸鱼上很容易地在网上列出它们。有偿问卷调查学生赚钱的一种越来越流行的方式是在业余时间填写在线调查表。研究公…

2022年8月14日
0640
专栏

5g手机有哪些品牌，最好用的5G手机品牌排行榜

Mate20X5G版定价：6199元 Mate20X5G版是华为首款5G手机，搭载麒麟980+巴龙5000，同时支持NSA/SA双模5G手机，还支持5G+4G双卡双待、智能切换。 Mate 20X 5G版拥有7.2英寸全景巨幕屏，分辨率2244×1080，、提供8+256GB存储，前置2400万+后置4000万+2000万+800万徕卡三摄，电池容量为4200mAh，支持40W超级快充，石墨烯液…

2022年7月8日
01200
专栏

小程序有什么用，微信小程序发展历程介绍

微信小程序有什么用?最大的用途就是让一些企业通过小程序为自己公司或店铺带来了庞大的流量和丰厚的收益。对于商家来说，在打造小程序时，如何让小程序发挥最大用途，为自己带来巨大的流量红利呢? 小程序不是一个功能单一的平台或产品，这个项目可以满足你的目标用户。小程序更适合那些线下的实体门店或电商类的企业去做，但也不是这么绝对，只要运用得当，任何行业都是可以从中获取所需的资源和利益的。根据不同的公司根据需…

2022年6月7日
0650
专栏

微信公众平台发文章怎么盈利，微信公众号优秀推文模板

如何排版一篇阅读量10w+的微信公众号文章，现在很多小伙伴都申请了微信公众号，再发布文章的时候总是没能得到太好的阅读量，这是什么原因呢？不知你是否思考过自己文章的排版方式，很多人在微信公众号码文章的时候总是一股脑的码上去，没有多少修饰，不考虑字体大小，字间距，对齐等，最后的结果就是，网民点进来，看到一大串的文字根本就没有兴趣看下去，翻了几下就退出去了，导致文章的内容活动等相关信息根本没有机会展现…

2022年9月2日
0570
专栏

u盘文件损坏如何修复，详细教您恢复方法

现在就下载数据猫数据恢复软件! 有时候真搞不懂老板怎么想的额，明明是依靠互联网来做生意的，但是公司的网速实在是不容乐观。其实之前还好，现在随着人数增多真的是难过，也就是能保证打开网页，但是想下载东西那是不可能的。就因为这个，我还差点遇到数据危机，准确的说是已经遇到了，只不过我想办法用解决掉了而已。因为前段时间公司不断招收新人，虽然工作量得到了分担，但是网速却成反比的不断下降，有时候在公司找点素材…

2022年6月18日
0560
专栏

蓝宝石显卡怎么样（最新蓝宝石开箱测评）

英伟达霸气侧漏的上市了RTX20系列显卡，还加入了一些高科技的特效属性，而AMD一直保守发育，同样也意思意思发布了一款新显卡，全新的马甲显卡RX590，大部分型号的外观和上一代的RX580一致，例如我最近入手的一张RX590显卡蓝宝石极光版。这张显卡入手的价格为1600元，是渠道的价格，到了年底，一个商家朋友按照这个价格卖给了我，感觉挺实惠就入手了，给大家带来全新的开箱上手体验。显卡的外观和上…

2022年10月23日
0450