谷歌再次震惊世界:推出AI唇读系统 玩爆唇读专家

奇闻异事 2017-05-06 12:13www.kangaizheng.com诡异事件
  唇读,人们根据别人的口型和当时的语境、表情来猜测他要说什么,这是一项非常微妙和精湛的技艺。,连人类如此复杂高超的能力,人工智能都学会了。未来,还有什么是人类有,而人工智能没有的吗?人工智能抢人类饭碗的趋势已经越来越明显,而且一出手就比该行业的专家们都做的好。

  谈AI,主角通常而言都是行业大佬——谷歌, 谷歌DeepMd。这次他们与英国牛津大学合作,通过机器学习大量的 BBC 节目,来学习一项全新的技能唇读术。可怕的是,人工智能不仅学会了,而且让唇读专家们自愧不如。

谷歌震惊世界推出AI唇读系统 完爆唇读专家

  AI 系统的学习对象是近 5000 小时的 BBC 各类节目,包括 Newsnight、BBC Breakfast、Question Time 等,所有视频资料加起来约有 11.8 万句话。

  谷歌DeepMd 和牛津大学的联合研究团队使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材对 AI 系统进行训练,然后使用 2016 年 3 月- 9 月间播出的节目进行 AI 性能测试。

  BBC节目数据库。从左至右分别为频道、节目名称、小时数、句数

谷歌震惊世界推出AI唇读系统 完爆唇读专家

  通过观察节目中说话者的唇形,AI 系统可以准确解读出文字,比如下面这些比较“拗口”的句子“我们知道也将有上百位记者会出席”(We know there will be hundreds of journalists here as well),以及“根据国家统计局的最新统计数据”(Aordg to thelatest figures from the Office of National Statistics)。

  DT 君试读了以上英文语句,发现唇形变化其实并不明显,而且电视节目中的语速是非常快的,难度可想而知。

  AI能力再升级

  测试结果的具体数据可能更能说明问题在 2016 年 3 月-9 月的节目库中随机选取的 200 个说话场景唇读对比测试中,人类专家的完全准确率为12.4%,而AI的完全准确率为46.8%。

  而且 AI 所犯错误中有很多其实无关紧要,比如在复数后面漏掉一个“s”之类。不过哪怕是这样,AI 还是完虐了人类唇读专家。

  人工智能业内专家称,“这绝对是建构全自动唇读系统的第一步!现有的各类庞大数据库完全可以支持深度学习技术的发展。”
        上方彩色图片为BBC节目数据库原始静态图片,下方黑白图片为两个不同的人说出“afternoon”(下午)这个单词时的唇型

谷歌震惊世界推出AI唇读系统 完爆唇读专家

  两周前,牛津大学曾开发了一个类似的深度学习系统LipNet,这套系统当时就以93.4%对52.3%的比分击败了人类唇读专家,但还不太说明问题,毕竟,LipNet和人类的竞赛是基于GRID语料库,这个数据库只包含51个特殊词汇。

Copyright © 2018-2025 www.kangaizheng.com 看丐网 版权所有 Power by