打造“聊”愈系机器人！看图说故事，AI 也略懂略懂 04月24日更新

看图说故事对人类来说，是轻松好玩的事，但对 AI 来说却是巨大挑战，因为这代表 AI 必须看出图中有哪些物件、理解图片意义、能够生成文句，还要看懂图片间的因果逻辑。在中研院资讯科学研究所古伦维副研究员的努力下，AI 看图说故事的能力有了很大的进展，她的模型有什么独特之处呢？

俗话说得好：“发文不附图，此风不可长。”不论你发的是爆卦文、闲聊文还是业配文，有图更容易晋身流量热文。不过近年来，社群网站发文的风向渐渐有了改变，从“发文附图”转变成“发图附文”，我们总是先来一张照片，再配上相应的描述文字。接下来，我们的发文习惯还会怎么改变？

或许，未来你拍下一张照片上传社群网站，电脑就会自动“看图说故事”，为你的照片脑补一段说明文字，节省你的思考时间。

让电脑学会“看图说故事”的伎俩，正是中研院资讯科学研究所的古伦维副研究员正在钻研的主题之一。她的主要研究领域是人工智能（AI）的自然语言处理，在因缘际会下，接触到一个 AI 看图说故事的竞赛： Visual Storytelling （ VIST ），开启了她对 AI 看图说故事的兴趣。

▲ 中研院资讯科学研究所的古伦维副研究员，主要研究领域是人工智能（ AI ）的自然语言处理，现正开发如何让 AI 不只会说故事，还会看图说故事。

电脑如何学会“看图说故事”？目前学界使用“机器学习”，简单来说，就是让电脑从大量的图文搭配组合，从中学习看到怎样的图片，应该说出怎样的故事。中研院资讯所古伦维副研究员说：“其实一开始我们做得并不特别好。我们跟其他参加竞赛的人一样，用机器学习的方法，把图和对应的文字丢进电脑，让机器自己学习最佳的图文搭配。然而机器学习几乎是军备竞赛了！谁的电脑计算能力更强，得到的模型更复杂，生成的文字就会更好。”

先选角、打草稿，再写故事

在军备竞争不足的情况下，古伦维决定采取不同的策略：“既然完全由 AI 看图说故事的效果不够好，能不能在故事生成的过程中，有一个人类可以介入改善的步骤。”所以她把原来的做法分成两个阶段，先从图片抽取语意，接着再生成文字故事。

语意抽取，是指先从个别图片中选出用来说故事的概念（如同电影选角），用知识库找出概念之间的关系，建立图片的关联，再为这些图片拟定最好的草稿（如同电影故事大纲)。

重点来了！在“选角”阶段， AI 会先以机器学习的结果，找出最适合说故事的“角色组合”，尤其是面对连续图片。这就好比张曼玉、梁朝伟、成龙 3 名演员，前两个主要演爱情片，第三个以武打戏为主，如果第一张照片选了张曼玉，第二张照片应该选梁朝伟，生成的故事会比较好看。

但目前 AI 选角部分还不够灵光，有时仍会发生如“张曼玉配成龙”的选角名单。古伦维的两阶段设计让人类可在“选角”阶段介入修改。实际例子如：图片中有小男孩、天空、脚踏车 3 个概念。AI 从上图抽取出的概念可能是“小男孩”、“天空”，最后生成的故事可能是“一个小男孩在天空下”……满无聊的，但人类可以把“天空”改成“脚踏车”，机器最后就可能生成“一个小男孩骑着脚踏车”，嗯，是不是比较有故事性了？

最后，人类再将修改后的选角和故事大纲，交给 AI 产生整个故事。这种“先选角、打草稿，再说故事”的方式，最后产生的故事比较不会无聊或是不合理，更接近人类说出的故事。

▲ 古伦维的故事生成模型将产生故事的过程分成“语意抽取”及“故事生成”两个阶段。（Source：古伦维，以下同）

知识库，AI 想像力的补充包

为了增加 AI 的想像力，古伦维也在模型中纳入“知识库”，帮 AI 增加故事的知识。例如图片中有人与马，如果没有知识库，AI 可能只能生成“有一个人与一匹马”这种平淡的句子。但知识库可以补充人与马关联的知识，包括人可以骑马、养马等，让 AI 有机会说出“有一个人骑着自己养的马”比较具故事性的句子。“当然 AI 也可能从大量的故事中以机器学习取得‘很多人都会骑马、养马’的知识。但知识库的最大功用，就是直接提供这个知识给 AI ，缩短学习历程。” 古伦维解释。

更重要的是，知识库让 AI 更容易解读出图片之间的关联。如 VIST 竞赛的题目就是包含了 5 张图片的图组，在知识库的协助下， AI 比较容易找出各别图片的概念之间的关联，说出的故事会比较连贯，具有因果关系。

AI 是完全没有想像力的，但若透过知识库给它知识，这些知识在故事中呈现出来的，就像是 AI 的想像力。

▲ 电脑看图说故事的范例。No KG 代表机器在不添加额外知识时所产生的故事，Visual Genome 与 Open IE 古伦维团队用两个不同的知识库分别产生的故事，GLAC 是除了古伦维的模型外目前成果最好的模型。由上可知，知识库的确能帮助故事的上下文连结。最后的 Human 是真人所写的故事，包含了许多图片中没有的知识，甚至精神性的内容。

巧妙切开“语意抽取”与“生成文本”

两阶段生成故事的方法还有一个优点，就是可善用大量的“图片辨识”与“故事文本”数据库，避开“图文搭配”资料的缺乏。

现今的“图片辨识”技术和数据库非常成熟，可以精准的从图片中抽取出各式各样的概念。另一方面，说故事是人类从古至今不断从事的活动，留下了大量的“故事文本”。相较之下，看图说故事的“图文搭配”资料量却相当少，需要有人刻意去搜集图组、撰写文字，古伦维说：“这种图文搭配的资料必须人工建立，能有一万组就很厉害了，但这个数量对于机器学习来说却是远远不够的。”

古伦维则把生成故事的过程拆成“语意抽取”与“生成文本”两个阶段，第一阶段可利用精熟的图片辨识技术和数据库，抽取故事概念；第二阶段再运用故事文本数据库，让机器学习如何将第一阶段抽取（并由人类修改过）的概念，组合成漂亮的故事，巧妙避开了“图文搭配”资料不足的难题。

把“语意抽取”与“生成文本”切开的话，两个阶段都可以利用几千万笔的既有资料，供机器学习。

脑补，让机器更有温度

说了半天，但 AI 会看图说故事，到底能干嘛？难道只是帮贴图写写图说？以研究的层面来说，如果 AI 能看图说故事，代表 AI 在理解图片、文字分析及因果逻辑等方面，都达到一定的水准，代表 AI 语言能力更加接近人类。在实际应用上，可以为图文创作者提供故事草稿，或是对于常常需要撰写广告文案、出差报告的人，能够很快从图像生成文本，人类只要略做修改润饰即可。

但更重要的是，机器人也能因此更有温度！古伦维与台大人工智能与机器人研究中心的傅立成教授合作，希望透过 AI 看图说故事的技术，让居家照护机器人更有“人味”，会主动关怀人类。因为居家照护机器人在家中“看见”的一切，其实就是一张张的图， AI 可以透过这些“图”形成可能的故事，再转化为暖心的问句。

想像一下，未来居家照护机器人看见老人家在厨房，故事剧情可能是“他要煮饭”，于是问出：“今晚想吃什么？需要帮忙吗？”当老人拿出相簿缅怀过去，AI 也能从旧照片解读可能故事，转化成聊天的问句：“照片中的这个人是谁啊？你们去哪里玩？”还能变身孩子最爱的说故事姐姐！AI 可能从储存的绘本数据库中，随机抽出不同图画重新组合，说出全新的故事。

会看图说故事的 AI ，可以从眼前的情景连结到事件或情感，就像人类的脑补一般，而这些脑补就是故事。

如此一来，居家照护机器人不再只是被动的处理人类需求，相反的，“说故事的能力赋予了 AI 机器人找话题的功能。”古伦维笑着解释，机器人从此不再词穷，可以主动关心人类，与人类互动聊天，让机器人变得温暖许多。看来 AI 看图说故事，不只是写写图说、帮忙解决麻烦的出差报告，在不远的未来，更是拉近我们与机器人距离的关键所在呢。

（作者：郭雅欣；本文由研之有物授权转载；首图来源：pixabay）

打造“聊”愈系机器人！看图说故事，AI 也略懂略懂

先选角、打草稿，再写故事

知识库，AI 想像力的补充包

巧妙切开“语意抽取”与“生成文本”

脑补，让机器更有温度

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

Facebook、MessengerApp发生大规模闪退故障现象请暂停更新（内有简易修复法）

科学家大乱斗，一起打爆爱因斯坦、霍金、达尔文、图灵、居里夫人与牛顿吧

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图