<menuitem id="717x9"><strike id="717x9"></strike></menuitem>
<var id="717x9"><strike id="717x9"><listing id="717x9"></listing></strike></var>
<cite id="717x9"><video id="717x9"><thead id="717x9"></thead></video></cite>
<cite id="717x9"></cite>
<cite id="717x9"><video id="717x9"></video></cite>
<var id="717x9"><strike id="717x9"></strike></var>
<menuitem id="717x9"><strike id="717x9"></strike></menuitem>
<ins id="717x9"><span id="717x9"></span></ins>
<menuitem id="717x9"></menuitem><var id="717x9"><video id="717x9"></video></var>

昌江信息网

用户登录

首页

首页

资讯

查看

5亿听障人士福音来了!阿里研发读唇AI,识别精度超人类唇语专家

2019-12-06/ 昌江信息网/ 查看: 214/ 评论: 10

摘要新智元报道来源:venturebeat编辑:大明和AI大咖一起讨论吧~阿里巴巴又出黑科技,AI看唇语知内容!实际上,能够
淄博白癜风医院

新智元报道

来源:venturebeat

编辑:大明

和AI大咖一起讨论吧~

阿里巴巴又出黑科技,AI看唇语知内容!

实际上,能够从视频中读取嘴唇的AI和机器学习算法并没有什么不同。早在2016年,来自Google和牛津大学的研究人员就详细介绍了一种系统,该系统可以46.8%的准确度注释视频录像,这个表现明显优于专业唇语识别人士12.4%准确度。但是,即使是最先进的系统,也难以克服唇语识别时的歧义问题,这使唇语AI的性能一直难以超越音频语音识别。

为了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工学院的研究人员联合设计了一种方法,称为LIBS,该方法利用从语音识别器中提取的特征作为唇语识别时的补充信息。研究人员表示,LIBS系统在两个基准测试中都达到了业界领先的准确度,在识别字符错误率方面,LIBS分别较基线性能高出7.66%和2.75%。

LIBS和其他类似的解决方案一样,都可以帮助听障人士观看缺少字幕的视频。据估计,全世界有4.66亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到2050年,这一数字可能会超过9亿。

LIBS会从说话人的视频中以多种不同尺度提取有用的音频信息,包括序列级、上下文级和帧级。然后,系统会识别这些信息之间的对应关系,将数据与视频数据进行对齐(由于开头或结尾有时会出现采样率不一致、视频和音频序列的长度不一致等情况),并利用过滤技术来优化蒸馏功能。

LIBS系统架构示意图

LIBS的语音识别器和口语阅读器组件均基于注意力的seq2seq体系结构,这是一种机器翻译方法,可将序列的输入(即音频或视频)映射到带有标签的输出和注意力值上。研究人员对上述内容在LRS2和CMLR数据集上进行了训练,LRS2包含来自BBC的45000多个口语句子,CMLR则是最大的中文普通话口语语料库,包括了来自中国网络电视台网站的10万余个自然句(包括3000多个汉字和20000多个短语)。

不过,研究团队也表示,由于某些句子长度太短,该模型难以在LRS2数据集上实现“合理的”结果。(解码器从少于14个字符的句子中提取相关信息时会遇到困难。)但是,一旦对最大长度为16个单词的句子进行了预训练,解码器将可以通过对上下文级别的知识进行设置,提高LRS2数据中句子结尾部分的质量。

研究人员在描述其工作的论文中写道:“ LIBS减少了对无关框架的关注?!?“帧级知识提炼进一步提高了视频帧特征的可分辨性,使注意力更加集中?!?/p>

参考链接:

https://venturebeat.com/2019/12/03/ai-capsule-system-classifies-digits-with-state-of-the-art-accuracy/

论文链接:

https://arxiv.org/pdf/1911.11502.pdf

寒冬里,这个最酷AI创新平台招人啦!新智元邀你2020勇闯AI之巅

在新智元你可以获得:

与国内外一线大咖、行业翘楚面对面交流的机会

掌握深耕人工智能领域,成为行业专家

远高于同行业的底薪

五险一金+月度奖金+项目奖励+年底双薪

舒适的办公环境(北京融科资讯中心B座)

一日三餐、水果零食

新智元邀你2020勇闯AI之巅,岗位信息详见海报:

(声明:本文仅代表作者观点,不代表新浪网立场。)

文章关键词: 网络文化

用微信扫描二维码分享至好友和朋友圈

' + _substr(uids[i].name, 0, 14) + '

' + _substr(uids[i].v_reason, 0, 16) + '


鲜花

握手

雷人

路过

鸡蛋
收藏 分享 邀请
上一篇:暂无

最新评论

返回顶部
帮代打的彩票账号能提现吗