Generative Image Inpainting with Contextual Attention

/ by GuoWY / 论文来源: https://arxiv.org/pdf/1801.07892.pdf

总 结

  • 模型架构思路很有价值,但总感觉离完美还差了一些

      这篇模型的架构还是挺有意思的,生成模型分为粗模型和精模型,粗模型负责初步还原遮挡区域,精模型就负责精修(绘图精细度,风格一致性这些),判别模型采用的是判别效果更好的WGAN-GP,并且还用了两个,一个是算全局效果的EM距离,一个是算局部区域的EM距离。损失函数上采用的是像素方式的l1损失和WGAN对抗损失的加权和。除了这些基本架构,它还引入了一个注意力模型(我觉得属于优化吧), 这个注意力模型就是把前景补丁与背景补丁抠出来拼在一起,然后用softmax来计算每个像素的注意力得分(也就是前景中每个像素的最感兴趣的背景色块的相对位置),直观上理解就是它会帮助生成模型的像素点们“找重点”,那个它最“感兴趣的”色块对它的还原结果影响最大。那么这种影响是如何实现的呢?通过两个并行的编码器,一个是还原图的编码,一个是注意力图的编码,把这俩编码器合并到单个解码器以获得修复结果。

      我觉得架构还是很有想法,但是总感觉差了那么一点,后面的实验图也能看出来一些。主要在于损失函数,它忽略了很重要的风格损失。风格损失直观上说就是追求补得像,而原模型比较倾向于追求补得真。追求补得真是存在一些问题的,比如一张人脸,缺鼻子或缺眼,模型能给他补回来鼻子和眼,但如果他缺的是残缺的伤疤或痣斑,模型是不可能给他补回来的,因为不知道是什么样。补图更重要的是能融合进原图当中,让人看不出来,从这来说风格损失是很重要并且不可缺少的。有意思的是,这篇论文我做了复现,我们先看一下在原数据集中的一个补图效果:

      这个似乎看着还不错,我们再看一下在外来数据的一个补图效果:

      这个看着就有些尴尬了。事实上,18年NVIDIA公司出了一篇做图像修复的paper,详情点击 【论文原文】NVIDIA-Image-Inpainting ,效果比这篇惊艳多了,在那篇paper中的损失函数,不仅包含了风格损失,还包括了感知损失,代价损失和总变差损失,由此可见融合了众多的损失函数还是对绘图质量的提升有很大帮助的。

      

评 论