Google 发表音讯分离技术，可抽离影片中各人物的语音 04月24日更新

Google 发表了名为 Audio-Visual Speech Separation 的音讯分离技术，能够透过分析影像以及声音的特征，将影片中各人物所说的话分离成独立音轨，如此一来就能让观众在双人同时讲话的影片中，自由选择要听谁的语音，此外这项技术也能用来分离背景杂音，强化视讯通话时的音质表现。

人工智能协助分析

当人类专注于聆听某个人说话时，头脑会“自动调低”其他人与环境杂音的音量，让人可以在吵杂的场合也能彼此交谈。然而要透过电脑个别人物的语音单独抽离出来，仍然是个相当艰钜的挑战。

Google 的软件研发团队在《Looking to Listen at the Cocktail Party》一文中，提出了透过深度学习与声音-影像模型的方式分离语音的技术，能够强化影片中特定人物的语音，并消除其他人的声音与环境音。

这项技术最大的特色，在于它会同时分析影片中的影像与声音，透过辨识人物表情的变化，提升辨识精准度，同时它也能应用于一般单声道影片，系统会自动辨识影片中的人物与声音，观众需要做的只要点选影片中出现的人脸，就能只听到他的声音。

在研发过程中，团队引用了 10 万支 YouTube 只有单一讲者的无干扰演讲影片，并将这些总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音，以用于训练多重串流卷积神经网络（Multi-Stream Convolutional Neural Network），让人工智能发挥分离音讯的效果。

▲ Audio-Visual Speech Separation技术可以将影片中不同人的声音分离。（Source：Looking to Listen at the Cocktail Party）

▲ 该技术不但会分析声音，也会分析影片中人物的嘴型与表情。（Source：Looking to Listen at the Cocktail Party）

▲ 在人工智能的协助下，这项技术能够分离多个人物的语音与背景杂音。（Source：Google Research Blog）

实际效果展示

开发团队也公布了许多 Audio-Visual Speech Separation 的展示影片，读者可以从下列影片中看出这项技术的效果确实十分出色。

▲ 随着影片的播放，可以看到切换到不同音轨时，就只会出现指定人物的语音。

▲ 原始影片为 2 人激烈争论，在 Audio-Visual Speech Separation 的处理下，可以让观众选择只听右方主播的声音。

▲ Audio-Visual Speech Separation 也能用来消除背景杂音。

▲ 这项技术也可以应用于强化视讯通话的音质表现。

开发团队表示，Audio-Visual Speech Separation 除了有助于让观众选择想要聆听的人物声音之外，也能用来消除背景杂音，强化影片与视讯通话的音质表现，此外，将音讯分离后也有助于提升语音辨识系统自动产生字幕的精确度，适用范围相当广泛，Google 也在研究如何应用于其他 Google 产品上，或许在不久的未来就能在更多地方看到这项技术。

（本文由 T客邦授权转载；首图来源：pixabay）

Google 发表音讯分离技术，可抽离影片中各人物的语音

人工智能协助分析

实际效果展示

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

Facebook、MessengerApp发生大规模闪退故障现象请暂停更新（内有简易修复法）

科学家大乱斗，一起打爆爱因斯坦、霍金、达尔文、图灵、居里夫人与牛顿吧

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图