MIT 和 Google 让 AI 获得多种感官协调能力 04月26日更新

根据 MIT 和 Google 研究人员近期发表的论文，他们正在训练 AI 将影像、声音和文字等多方面资讯连接起来。

在语音辨识、影像辨识以及下围棋等单项能力方面，AI 已够出色，甚至超越人类。但如果 AI 一次只能使用一种感知能力，无法将看到和听到的内容结合，就无法彻底理解周围的世界。这正是 MIT 和 Google 研究人员进行这项研究的原因。

研究人员并没有教算法任何新东西，只是建立一种方式，让算法将多种感官获得的知识连线和协调，这点至关重要。

论文的联合作者之一──MIT 的 AI 博士后 Yusuf Aytar 以无人车为例：比如无人车的声音感测器先听到救护车的蜂鸣声，然后激光雷达才看到救护车。有关救护车的鸣叫、外观及职能的知识可让无人车放慢速度，切换车道，让路给救护车。

他说道：“你是先看到汽车还是先听见引擎声并没有关系，你马上能辨识出这是同个概念。因为你大脑中的资讯自然把它们协调统一了。”

为了训练这套系统，MIT 研究小组首先向神经网络展示与声讯相关的影图片。神经网络发现图中的对象并辨识出特别声讯后，AI 就会尝试预测哪个对象跟声音的关联。比方说，招手会不会发出声音？

接下来，研究人员又以相同形式为算法提供有标题的图片，让它连连看文字和图片。网络首先需要单独辨识出图中所有对象及相关问题，然后才能连接。

（Source：arxiv.org）

由于 AI 独立辨识声音、影像、文字的能力已十分出色，这种网络乍看之下并没有什么了不起，但研究人员表示，当他们训练 AI 进行声音／影像、影像／文字的配对时，系统就能在未经训练指导哪个单词与不同声音符合的情况下将声音与文字连结起来。这表明神经网络对看到的、听到的或读到的东西已形成更客观的看法，且这种看法的形成并不完全依赖于了解这资讯的媒介。

统筹对象的观感、听觉及文字后，算法就能自动将听到的东西转化为视觉影像，强化对世界的理解。

据悉，Google 也进行了类似研究，不过 Google 更强调一点：新算法还能将文字转化成其他媒体形式，虽然从准确率上来说，暂时还比不上单用途的算法。

See, Hear, and Read: Deep Aligned Representations
One Model To Learn Them All

（本文由雷锋网授权转载；首图来源：shutterstock）

MIT 和 Google 让 AI 获得多种感官协调能力

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

Facebook、MessengerApp发生大规模闪退故障现象请暂停更新（内有简易修复法）

科学家大乱斗，一起打爆爱因斯坦、霍金、达尔文、图灵、居里夫人与牛顿吧

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图