李飞飞学生新作：利用场景图生成图像

论文摘要

背景介绍

我不理解的事物，我是不可能创造出来的。——Richard Feynman

图1

这些方法可以在有限的区域上产生令人惊叹的效果，例如对鸟类或花朵的细致描述。然而，如图 1 所示，从句子生成图像的主要方法遇到包含许多对象的复杂句子并不能发挥很好的效果。

句子是线性结构，一个词接一个词；然而，如图 1 所示，复杂句子传达的信息通常可以作为场景图更明确地表示为对象及其关系。场景图是图像和语言的强大结构化表示;他们已经被用于语义图像检索；评估和改进图像字幕。其方法也被开发用于将句子转换成场景图并用于从图像到场景图的预测。

在本文中，作者旨在通过调整场景图的生成来生成具有多对象和关系复杂的图像，从而使模型能够明确地解释对象及其关系。

这项新任务带来了新的挑战。作者必须开发处理场景图输入的方法; 为此，他们使用一个图形卷积网络，沿着图形边缘传递信息。处理完图后，必须填补符号图形结构输入和二维图像输出之间的差距; 为此，通过预测图中所有对象的边界框和分割掩模来构建场景布局。预先设定好布局后，必须生成涉及它的图像; 为此，使用级联精化网络（CRN），它在不断增加的空间尺度下处理布局。最后，必须确保生成的图像真实并且包含可识别的对象; 因此针对一组用于图像补丁和生成对象的鉴别器网络进行对抗训练。模型的所有组件都以端到端的方式共同学习。

实验方法

作者的目标是开发一个模型，将输入描述对象及其关系的场景图作为输入，并生成与该图对应的逼真图像。主要的挑战有三个：首先，必须开发一种处理图形结构输入的方法;其次，必须确保生成的图像涉及图形指定的对象和关系;第三，必须确保合成图像真实。

作者将场景图转换为图像生成网络 f 的图像，如图 2 所示，它输入场景图 G 和噪声 z 并输出图像 I = f（G，z）。

场景图 G 由一个图形卷积网络处理，该网络给出每个物体的嵌入矢量;如图 2 和图 3 所示，图层卷积的每个层沿着图的边缘混合信息。

我们通过使用来自图卷积网络的对象嵌入向量来预测每个对象的边界框和分割掩模，从而尊重来自 G 的对象和关系;这些结合在一起形成一个场景布局，如图 2 中间所示，它充当图形和图像域之间的中间层。

输出图像 I^是使用级联精化网络（CRN）从布局生成的，如图 2 右边所示。每个模块都在处理布局，增加空间尺度，最终生成图像 I^。我们通过对一对鉴别器网络 Dimg 和 Dobj 进行对抗训练 f 来生成逼真的图像，这些网络鼓励图像 I^看起来逼真。

图2

图像生成网络 f 用于从场景图生成图像的概述。模型的输入是指定对象和关系的场景图; 它用图形卷积网络（图 3）进行处理，该网络沿着边缘传递信息来计算所有对象的嵌入向量。这些向量被用来预测对象的边界框和分割掩模，它们被组合形成场景布局（图 4）。使用级联细化网络（CRN）将布局转换为图像 [6]。该模型是针对一对鉴别器网络进行敌对训练的。在训练期间，模型观察地面真实物体边界框和（可选）分割掩模，但是这些是在测试时由模型预测的。

图3中显示了单个图形卷积层的示例计算图。

图3

计算机图形表示单一的图形变化层。该图由三个对象o1，o2和o3以及两个边（o1，r1，o2）和（o3，r2，o2）组成。沿着每条边，三个输入向量被传递给函数gs，gp和go; gp直接计算边的输出矢量，而gs和go计算候选矢量，它们被馈送到对称池函数h以计算对象的输出矢量。

为了生成图像，必须从图域移动到图像域。为此，作者使用对象嵌入向量来计算场景布局，该场景布局给出了生成图像的粗略 2D 结构; 通过使用对象布局网络为每个对象预测分割掩码和边界框来计算场景布局，如图 4 所示。

图4

图 4 通过计算场景布局从图域转移到图像域。每个对象的嵌入向量被传递给一个对象布局网络，该网络预测对象的布局，总结所有对象布局给出场景布局。对象布局网络在内部预测一个软二进制分割掩码和一个对象的边界框; 这些与使用双线性插值的嵌入向量组合以产生对象布局。

图5

图 5 使用分别来自 Visual Genome（左四列）和 COCO（右四列）测试集的图形生成 64×64 图像为例。对于每个示例，都会显示输入场景图和手动将场景图转换为文本; 模型处理场景图并预测由所有对象的边界框和分割掩模组成的布局; 然后这个布局用于生成图像。作者还使用地面实况而非预测的场景布局显示了模型的一些结果。一些场景图具有重复的关系，如双箭头所示。为了清楚起见，忽略了某些东西类别的遮罩，如天空，街道和水。

图6

部分实验结果对比

表1

表2

表 2 是预测边界框的统计。R@t 是具有 t 的 IoU 阈值的对象调用，并且与地面实况框测量协议。σx 和σ分别通过计算每个对象类别中框 x 位置和面积的标准偏差，然后对各个类别进行求平均来测量框的变化。

实验结果分析

图 5 显示了来自 Visual Genome 和 COCO 测试集的示例场景图以及使用论文作者方法生成的图像，以及预测的对象边界框和分割掩模。

这些例子还表明，该方法生成涉及输入图关系的图像; 例如（i）看到第二个西兰花左边有一个西兰花，第二个西兰花下面有一个胡萝卜; 在（j）中，该男子正在骑马，并且该男子的腿和马的腿都已经被适当定位。图 5 还显示了该方法使用的是地表实况而不是预测的对象布局生成的图像。

在某些情况下，该方法的预测布局可能与地面实况对象布局有很大差异。例如（k）图中没有指定鸟的位置，该方法使它站立在地面上，但是在地面真实布局中，鸟在天空中飞行。模型有时会受到布局预测的瓶颈，比如（n）使用地面实况而不是预测布局显着提高图像质量。

在图 6 中，通过从左侧的简单图形开始，逐步构建更复杂的图形来演示模型生成复杂图像的能力。从这个例子中，可以看到对象的位置受到图中关系的影响：在顶部序列中，添加「汽车在风筝下面」关系后，造成使汽车向右移动，风筝向左移动，从而风筝和汽车的关系也发生变化。在底部序列中，将关系「船在草地上」添加后，导致船的位置移位。

总结

在本文中，作者开发了一种从场景图生成图像的端到端的方法。与从文本描述生成图像的领先方法相比，作者提出的从结构化场景图而不是非结构化文本生成图像的方法能够明确地解析对象和对象之间关系，并生成具有多个可识别对象的复杂图像。

艾伯特(公众号：悦动智能 | aibbtcom)