怎么做外国网站流量,在什么网站可以接活做,佛山网站优化有,qq网页版登录官网登录入口网站文章目录 一、前言二、主要贡献三、Introduction四、Methodology4.1 Motivation #xff1a;4.2Framework Overview.** 一、前言
通信作者是香港理工大学 OPPO研究所的张磊教授#xff0c;也是图像超分ISR的一个大牛了。 论文如下 SeeSR: Towards Semantics-Aware Rea… 文章目录 一、前言二、主要贡献三、Introduction四、Methodology4.1 Motivation 4.2Framework Overview.** 一、前言
通信作者是香港理工大学 OPPO研究所的张磊教授也是图像超分ISR的一个大牛了。 论文如下 SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]
二、主要贡献
提出语义感知的方式来保持Real ISR 中的语义保真度。主要包括以下步骤
训练退化感知提示词提取器(degradationaware prompt extractor) 可以在大的退化图像中同时生成软语义提示词和硬语义提示词提升T2I模型生成充满细节且语义准确的结果。在推理阶段将LR 图像的信息融入初始采样噪声缓解扩散模型产生过多额外细节的趋势。
三、Introduction 一些常规的介绍。数据方面从单一退化到多种退化模型方面从GAN发展到了DDPMs。由于大规模预训练的文本到图像模型(T2I)包含大量的文本图像配对数据包含了丰富的自然图像先验因此需要作者开始挖掘这种模型的潜力 。StableSR、PASD、DiffBIR就是利用T2I模型作为预训练进行Real-ISR任务。但是他们存在一定局限性例如StableSR和DiffBIR 仅依靠LR图像作为控制信号忽略了语义文本信息在预训练的T2I模型中的作用PASD模型尝试使用现成的high-level模型提取语义提示词作为额外的控制信息但是如果LQ图像包含太多物体或者退化太多严重这个方式就会失效。 这篇工作 这篇文章深入研究如何提取如何才能更有效的提取提示词来充分利用T2I模型的潜力并总结了两个关键点1、提示词应该覆盖尽可能多的对象帮助模型理解不同的局部区域2、提示词应该是退化感知的要避免错误的语义恢复结果。 基于这两点作者提出这个方法Semantic-aware SR (SeeSR)这个模型可以使用高质量的语义提示词来增加T2I模型在Real-SR方向上的潜力这个方法包括两个阶段。1、微调语义提示词提取器使它获得退化感知能力。2、语义提示词、LR图像共同输入T2I模型进行精细的控制其中推理阶段还将LR图像的信息嵌入到初始采样噪声中避免生成过多的随机细节。
四、Methodology
4.1 Motivation
为了释放预训练的 T2I 模型的生成潜力同时避免 Real-ISR 输出中的语义失真 作者研究了三种语义提升风格分别是 classification-style, caption-style ,tag-style.。经过对比发现他们有如下的特点 作者认为classification-style 缺少局部物体的信息caption-style 会出现介词和副词影响注意力在存在降质的前提下有可能语义提示错误导致错误的结果tag-style 可以提供大量的物体信息但是有着和caption-style一样的问题在降质情况下可能会导致错误的语义信息。 具体的比较可以看图1不同种类提示词的结果 作者认为可以在tag-style基础上加上降质感知就可以得到较好的结果。
4.2Framework Overview.**
基于上述讨论作者确定了整体的任务框架主要目的是提取高质量的tag-style 提示词用来发挥T2I模型的潜力。下图是整体的任务框架。 首先是学习退化感知提示词提取器degradation-aware prompt extractor (DAPE)这个提取器包括image encoder 和 tagging head。这个提取器的目的就是让LR提取的提示词和HR提取的提示词尽可能接近。然后输出两个特征分别是feature representations 以及 tags。这两个东西用来控制T2I模型的生成过程。 第一阶段学习DAPE模块使用LR、HR的输出作为约束 第二阶段是将提示词以及LR image 通过交叉注意力模块控制预训练T2I模型。 最后是细节的处理在推理阶段LR的信息嵌入到初始采样噪声中作者说这样是很有效果的具体对比图如下 如果没有LRE模块那么可能将一些退化增强为细节如果有这个模块那么整体生成就更加正常了。
具体实验图见论文