网站开发技术框架,商城网站建设公司招聘,深圳营销型网站推广,网站建设模板后台论文 LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions https://github.com/advimman/lama 1.Introduce
解决图像绘制问题——缺失部分的真实填充——既需要“理解”自然图像的大尺度结构#xff0c;又需要进行图像合成。
通常的做法是在一个大型自… 论文 LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions https://github.com/advimman/lama 1.Introduce
解决图像绘制问题——缺失部分的真实填充——既需要“理解”自然图像的大尺度结构又需要进行图像合成。
通常的做法是在一个大型自动生成的数据集上训练绘画系统这些数据集是通过随机屏蔽真实图像创建的。通常使用带有中间预测的复杂两阶段模型例如平滑图像[27,54,61]、边缘[32,48]和分割图[44]。在这项工作中我们用一个简单的单级网络获得了最先进的结果。
一个大的有效接受野[29]对于理解图像的整体结构从而解决图像绘制问题是必不可少的。此外在一个大掩模的情况下一个大而有限的接受域可能不足以获得生成高质量图像所必需的信息。我们注意到流行的卷积架构可能缺乏足够大的有效接受场。我们仔细地干预系统的每个组成部分以缓解问题并释放单级解决方案的潜力。具体来说:i)我们提出了一个基于最近发展的快速傅立叶卷积(FFCs)[4]的喷漆网络。ffc允许覆盖整个图像的接受域即使在网络的早期层也是如此。我们证明ffc的这种特性提高了网络的感知质量和参数效率。有趣的是FFC的归纳偏倚允许网络泛化到训练过程中从未见过的高分辨率(图5、图6)。这一发现带来了显著的实际好处因为需要的训练数据和计算量更少。
ii)我们提出使用基于高接受场语义分割网络的感知损失[20]。这是基于这样一种观察即接受野不足不仅会损害绘画网络还会损害感知损失。我们的损失促进了全球结构和形状的一致性。
iii)我们引入了一种积极的训练掩码生成策略以释放前两个组件的高接受场的潜力。这个过程产生了宽而大的掩模这迫使网络充分利用了模型和损失函数的高接受场。
这就引出了一种新的单阶段图像绘制系统——大掩模绘制系统(LaMa)。LaMa的主要组成部分是高感受野架构(i)具有高感受野损失函数(ii)以及训练掩码生成的激进算法(iii)。我们仔细地将LaMa与最先进的基线进行比较并分析每个提议组成部分的影响。
通过评价我们发现仅在低分辨率数据上进行训练后LaMa就可以泛化到高分辨率图像。LaMa可以捕获和生成复杂的周期结构并且对大掩模具有鲁棒性。此外与竞争基线相比这是用更少的可训练参数和推理时间成本实现的。
方法
2.1. 早期层中的全局上下文
例如填充大蒙版生成适当的inpainting需要考虑全局上下文。因此我们认为一个好的架构应该在管道中尽可能早地拥有具有尽可能广泛的接受域的单元。传统的全卷积模型如ResNet[14]存在有效接受野[29]增长缓慢的问题。由于卷积核通常很小(例如3 × 3)接收域可能不足特别是在网络的早期层。因此网络中的许多层将缺乏全局上下文并且将浪费计算和参数来创建一个全局上下文。
对于宽掩模特定位置的生成器的整个接受野可能在掩模内因此只观察到缺失的像素。对于高分辨率图像这个问题尤为明显。
快速傅立叶卷积(FFC)[4]是最近提出的运算符它允许在网络的前期层中利用全局上下文。FFC基于通道快速傅里叶变换(FFT)[2]具有覆盖整个图像的接受野。FFC将通道分成两个并行分支:i)局部分支使用常规卷积ii)全局分支使用真正的FFT来考虑全局上下文。实FFT只能应用于实值信号逆实FFT保证输出为实值。与FFT相比真正的FFT只使用了一半的频谱。具体而言FFC采取以下步骤: 最后将本地(i)和全局(ii)分支的输出融合在一起。FFC的图示见图2。 FFCs的功能FFCs是完全可微的并且易于使用的替代传统卷积。由于图像范围的接受域ffc允许生成器从早期层开始考虑全局上下文这对于高分辨率图像的绘制至关重要。这也带来了更高的效率:可训练参数可以用于推理和生成而不是“等待”信息的传播。
我们发现ffc非常适合捕获周期性结构这在人造环境中很常见例如砖、梯子、窗户等(图4)。有趣的是在所有频率上共享相同的卷积将模型转向尺度等方差4。