欢迎光临KOTOO财情




MIT 和 Google 让 AI 获得多种感官协调能力

2024-11-02 220

根据 MIT 和 Google 研究人员近期发表的论文,他们正在训练 AI 将影像、声音和文字等多方面资讯连接起来。

在语音辨识、影像辨识以及下围棋等单项能力方面,AI 已够出色,甚至超越人类。但如果 AI 一次只能使用一种感知能力,无法将看到和听到的内容结合,就无法彻底理解周围的世界。这正是 MIT 和 Google 研究人员进行这项研究的原因。

研究人员并没有教算法任何新东西,只是建立一种方式,让算法将多种感官获得的知识连线和协调,这点至关重要。

论文的联合作者之一──MIT 的 AI 博士后 Yusuf Aytar 以无人车为例:比如无人车的声音感测器先听到救护车的蜂鸣声,然后激光雷达才看到救护车。有关救护车的鸣叫、外观及职能的知识可让无人车放慢速度,切换车道,让路给救护车。

他说道:“你是先看到汽车还是先听见引擎声并没有关系,你马上能辨识出这是同个概念。因为你大脑中的资讯自然把它们协调统一了。”

为了训练这套系统,MIT 研究小组首先向神经网络展示与声讯相关的影图片。神经网络发现图中的对象并辨识出特别声讯后,AI 就会尝试预测哪个对象跟声音的关联。比方说,招手会不会发出声音?

接下来,研究人员又以相同形式为算法提供有标题的图片,让它连连看文字和图片。网络首先需要单独辨识出图中所有对象及相关问题,然后才能连接。

(Source:arxiv.org)

由于 AI 独立辨识声音、影像、文字的能力已十分出色,这种网络乍看之下并没有什么了不起,但研究人员表示,当他们训练 AI 进行声音/影像、影像/文字的配对时,系统就能在未经训练指导哪个单词与不同声音符合的情况下将声音与文字连结起来。这表明神经网络对看到的、听到的或读到的东西已形成更客观的看法,且这种看法的形成并不完全依赖于了解这资讯的媒介。

统筹对象的观感、听觉及文字后,算法就能自动将听到的东西转化为视觉影像,强化对世界的理解。

据悉,Google 也进行了类似研究,不过 Google 更强调一点:新算法还能将文字转化成其他媒体形式,虽然从准确率上来说,暂时还比不上单用途的算法。

  • See, Hear, and Read: Deep Aligned Representations
  • One Model To Learn Them All

(本文由 雷锋网 授权转载;首图来源:shutterstock)

2019-03-18 21:30:00

标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 KOTOO商业产经 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条
0