2024 11 20 PromptSR

Daily Paper 003

第三天！！🥳 这篇文章需要重点看看。

Title: Image Super-resolution with Text Prompt Diffusion (ArXiv 2024)

code

⭐⭐⭐⭐

Introduction

在真实应用中，场景往往存在复杂多样的退化类型，现有的方法大部分都是在已知退化类型(双三次下采样)的数据上进行训练的，因此在推理的时候效果往往不好。常用的解决方法是盲超分方法，大致可以分为三类：

Explicit Methods 通常依赖于预定义的退化模型。它们将降解参数（如模糊核或噪声）作为 SR 模型的条件输入进行估计。预定义的退化模型限制了退化表示的范围，从而限制了方法的通用性。
Implicit Methods 通过广泛的外部数据集来捕捉潜在的降解模型。它们通过利用真实捕获的 HR-LR 图像对或 HR 和未配对的 LR 数据来学习数据分布，从而实现这一目标。但是学习数据分布具有一定的挑战性，效果并不理想。
定义复杂退化，合成大量数据用于训练。为了模拟真实世界的退化，这些方法将退化分布设置得足够广泛。然而，这增加了 SR 模型的学习难度，并不可避免地导致性能下降。

总体来说，对于SR来说，退化模型的建模尤为重要。但是现有的方法都局限于从LR输入上获取退化信息，表征能力有限。一种方法是引入额外信息，比如参考先验[Robust referencebased super-resolution via c2-matching]和生成先验[Glean: Generative latent bank for large-factor image super-resolution, Gan prior embedded network for blind face restoration in the wild]。文章提出了引入text prompt作为先验，其好处在于：

文本信息本身具有灵活性，适用于各种情况
可以利用当前的预训练视觉语言模型的强大功能
文本引导可作为SR的补充信息

文章提出了一个用于SR退化模型的文本-图像的生成模型。用Text Prompt来表示退化以提供额外的先验信息(这里作者说LR图像可以提供与内容相关的低频信息和语义信息，因此不需要整体图像的描述。我觉得可能确实LR图像表达了部分低频信息和语义信息，但是加入全局的caption会不会更好一点。)。然后用binning method[Crafting training degradation distribution for the accuracy-generalization trade-off in real-world superresolution]对退化分布进行分区，然后对每个分区进行文字描述后合并，得到最终的text prompt。然后进一步提出了PromptSR方法，利用预训练的语言模型充当文本编码器，将Text Prompt映射到嵌入序列中。然后，扩散模型以LR图像和文本嵌入为条件，生成相应的HR图像。

Experiment

Dataset: 适用LSDIR作为训练数据，包括84,991张高分辨率数据，利用我们的方法生成文本-数据对。

Daily Paper 003#

Title: Image Super-resolution with Text Prompt Diffusion (ArXiv 2024)#

code#

⭐⭐⭐⭐#

Introduction#

Experiment#