2024 11 21 AMIR

Daily Paper 004 第四天!!这几天搞下新论文的思路验证了,daily paper可能写的比较简略🥶,但是还是坚持写下去吧,不然才四天就荒废了也太丢人了。 Title: All-In-One Medical Image Restoration via Task-Adaptive Routing (MICCAI 2024) code ⭐⭐⭐⭐ Abstract 文章主要设计了一个通用模型解决医学影像上的不同的修复任务,提出了一种任务自适应的routing策略,允许相互冲突的任务在空间和信道维度上选择不同的网络路径,减轻任务的干扰。 Introduction 医学影像修复任务主要包括MRI super-resolution, CT-denoising和PET synthesis。与自然影像的图像修复不同,医学影像的成像模态不同,不同任务的数据分布存在显著的差异。文章提出了一个通用的医学影像修复模型,关键理念是采用任务自适应routing策略,动态地将冲突任务的输入导向不同的网络路径,明确地减轻任务之间的干扰。包括instruction learning, spatial routing和channel routing。instruction learning旨在根据输入图像自适应地学习与任务相关的指令,而spatial routing和channel routing则利用这些学习到的prompt分别在空间和信道层面指导网络特征的路由,从而减轻潜在的干扰。

November 21, 2024 · 1 min · 31 words · Yi Liu

2024 11 20 PromptSR

Daily Paper 003 第三天!!🥳 这篇文章需要重点看看。 Title: Image Super-resolution with Text Prompt Diffusion (ArXiv 2024) code ⭐⭐⭐⭐ Introduction 在真实应用中,场景往往存在复杂多样的退化类型,现有的方法大部分都是在已知退化类型(双三次下采样)的数据上进行训练的,因此在推理的时候效果往往不好。常用的解决方法是盲超分方法,大致可以分为三类: Explicit Methods 通常依赖于预定义的退化模型。它们将降解参数(如模糊核或噪声)作为 SR 模型的条件输入进行估计。预定义的退化模型限制了退化表示的范围,从而限制了方法的通用性。 Implicit Methods 通过广泛的外部数据集来捕捉潜在的降解模型。它们通过利用真实捕获的 HR-LR 图像对或 HR 和未配对的 LR 数据来学习数据分布,从而实现这一目标。但是学习数据分布具有一定的挑战性,效果并不理想。 定义复杂退化,合成大量数据用于训练。为了模拟真实世界的退化,这些方法将退化分布设置得足够广泛。然而,这增加了 SR 模型的学习难度,并不可避免地导致性能下降。 总体来说,对于SR来说,退化模型的建模尤为重要。但是现有的方法都局限于从LR输入上获取退化信息,表征能力有限。一种方法是引入额外信息,比如参考先验[Robust referencebased super-resolution via c2-matching]和生成先验[Glean: Generative latent bank for large-factor image super-resolution, Gan prior embedded network for blind face restoration in the wild]。文章提出了引入text prompt作为先验,其好处在于: 文本信息本身具有灵活性,适用于各种情况 可以利用当前的预训练视觉语言模型的强大功能 文本引导可作为SR的补充信息 文章提出了一个用于SR退化模型的文本-图像的生成模型。用Text Prompt来表示退化以提供额外的先验信息(这里作者说LR图像可以提供与内容相关的低频信息和语义信息,因此不需要整体图像的描述。我觉得可能确实LR图像表达了部分低频信息和语义信息,但是加入全局的caption会不会更好一点。)。然后用binning method[Crafting training degradation distribution for the accuracy-generalization trade-off in real-world superresolution]对退化分布进行分区,然后对每个分区进行文字描述后合并,得到最终的text prompt。 然后进一步提出了PromptSR方法,利用预训练的语言模型充当文本编码器,将Text Prompt映射到嵌入序列中。然后,扩散模型以LR图像和文本嵌入为条件,生成相应的HR图像。 ...

November 20, 2024 · 1 min · 81 words · Yi Liu

2024 11 19 LoRA IR

Daily Paper 002 第二天!!🥳 Title: LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration (ArXiv 2024) code ⭐⭐⭐⭐ Abstract: Prompt based all-in-one IR方法在处理真实场景中的复杂多变的退化时仍然存在挑战。文章提出了LoRA-IR,分为两部分:degradation-guided pretraining和parameter-efficient finetuning。 Introduction 和之前的All-in-One方法类似,说明单一任务的模型很难在现实中不可预测和多变的环境中有效推广,并指出了之前的Prompt Learning IR的缺点:仅仅依靠轻量级的Prompt和static shared network很难捕捉到不同退化类型的细节和specific patterns. 并且不同退化类型之间的潜在相关性和共有的特征没有广泛利用. 针对上面的问题,提出了LoRA-IR. 与其他方法的不同之处在于,LoRA-IR基于CLIP生成degradation prompt. 但是CLIP侧重于影像的全局语义信息,在应用于low-level vision时会出现性能不佳的情况. 为了解决这一问题,文章提出了DG-Router,将影像分为两个分支输入CLIP,下采样获取全局的信息,用sliding-window获取局部信息。 网络的训练分为两个阶段:1)用DG-Router得到的退化信息指导图像复原网络预训练;2)用LoRA对第一阶段得到的复原网络进行微调(基于MoE构建了一组low-rank restoration experts). 不同的专家模型增强了网络捕捉特定退化知识的能力,他们之间的协作则使网络具备了学习各种退化之间相关性的能力 (Different experts enhance the network’s ability to capture degradationspecific knowledge, while their collaboration equips the network with the capability to learn correlations between various degradations)。 Related Work 文章从IR model,VLM以及Parameter-efficient Fine-tuning (PEFT)三个方面介绍了相关工作。我这里就重点看了一下PEFT工作(对应LoRA)。 ...

November 19, 2024 · 1 min · 155 words · Yi Liu

2024-11-18 X-Restormer

Daily Paper 001 今天是每日一篇论文计划实施的第一天,主要是为了激励自己看论文(论文看得太少了😭). Title: A Comparative Study of Image Restoration Networks for General Backbone Network Design (ECCV 2024) code ⭐⭐⭐ Abstract 文章主要对之前的通用图像修复框架(i.e. MPRNet, NAFNet, SwinIR, Restormer, Uformer)进行了任务通用性分析,指出在某个任务(SR)上表现好的方法在其他任务上表现往往逊色于其他方法。 针对这一问题,文章设计了一种新的通用图像复原Backbone。 Introduction 首先造成图像复原框架任务表现差异性的主要原因在于,不同的图像修复任务所涉及的退化特征不同。文章选取了image SR, denoising, deblurring, deraining和dehazing五类任务(他们的退化特性各不相同)进行了五种backbone的通用性分析, 这五种backbone又可以分为三类经典的框架,U-Net框架(Uformer, Restormer), 残差框架(SwinIR, NAFNet), 多阶段渐进式框架(MPRNet). 并且还包含了卷积,空间自注意力(spatial self-attention),转置自注意力(transposed self-attention). 图中可以看到Restormer在各项任务的表现都较好,因此作者对Restormer的结构优势进行了分析: Restormer的U-Net架构可以处理大尺寸的输入,对于处理大区域的退化是必要的 Restormer的转置自注意力(transposed self-attention)利用channel-wise feature作为token,实现了channel之间的信息交互和全局感受野的映射 depth-wise conv也激活了网络的空间信息交互能力 而Restormer的缺陷在于其空间映射能力不足,以至于在SR任务上稍逊于SwinIR。作者也对其进行了分析,认为这种不足来自于UNet架构自身的对于细节重建的缺陷以及depth-wise conv相对于空间自注意力的较弱的空间映射能力。 因此一个很好的方法是在Restormer中加入空间自注意力,用HAT中的overlapping cross-attention blocks替换一半的transposed self-attention. (其实感觉文章的创新性并不高,无非又是缝合模块, 主要还是得把文章的故事讲好!!!!) 🧐 Related Work related work就先不放在这里了,占篇幅,hhhhh。主要是介绍了图像复原网络领域内之前的工作,然后另外用了一节解释了文章的方法更侧重于不同领域的通用性设计,与其他方法不同。 Benchmark 这里首先分析了上文中提到的五类图像复原任务的退化模型,包括: image Super-Resolution $$I_{LQ}=(I_{GT}\otimes k)\downarrow_{s} $$ 这种退化模型与局部信息是高度相关的,并且高频信息大量丢失。因此SR网络强调强大的空间信息交互能力,以重建尽可能多的细节。 ...

November 18, 2024 · 1 min · 101 words · Yi Liu

Diffusion Models

Preliminary Knowledge 条件概率公式 条件概率的一般形式: $$ P(A,B,C)=P(C|B,A)P(B,A)=P(C|B,A)P(B|A)P(A) $$$$P(B,C|A)=P(C|B,A)P(B|A)$$马尔可夫条件:下一状态的概率分布只能由当前状态决定,与前面的状态无关。 $$ P(A,B,C)=P(C|B)P(B|A)P(A) $$$$ P(B,C|A)=P(C|B)P(B|A) $$KL散度 KL散度是衡量两个概率分布之间差异的一种度量方法,它衡量了从一个分布到另一个分布所需的额外信息。KL散度的定义是建立在熵Entropy的基础上的,熵Entropy的定义如下: $$H(X)=-\sum_{i=1}^{n}p_i\log p_i$$ 规定当$p_i=0$时,$p_i\log p_i=0$ $$H(p,q)=-\sum_{i=1}^{n}p(x)\log q(x)$$ 在信息论中,交叉熵可认为是对预测分布$q(x)$用真实分布$p(x)$来进行编码时所需要的信息量大小 因此我们可以通过交叉熵和信息熵来推到相对熵即KL散度: $$ \begin{align} D_{KL}(p||q)&=H(p,q)-H(p) \nonumber\\ &=-\sum_{i=1}^{n}p(x)\log q(x)+\sum_{i=1}^{n}p(x)\log p(x) \nonumber\\ &=-\sum_{i=1}^{n}p(x)\log \frac{q(x)}{p(x)} \nonumber \end{align} $$ KL散度的特点: 非对称性:$D_{KL}(p||q)\neq D_{KL}(q||p)$ 非负性:$D_{KL}(p||q)\geq 0$ $$ \begin{align} p(x)&=\frac{1}{\sqrt{2\pi}\sigma_1}exp({-\frac{(x-\mu_1)^2}{2\sigma_1^2}}) \nonumber\\ q(x)&=\frac{1}{\sqrt{2\pi}\sigma_2}exp({-\frac{(x-\mu_1)^2}{2\sigma_2^2}}) \nonumber \end{align} $$$$ \begin{align} \int p(x)\log(p(x))dx &= -\frac{1}{2}[1+\log(2\pi\sigma_1^2)] \nonumber\\ \int p(x)\log(q(x))dx &= -\frac{1}{2}\log(2\pi\sigma_2^2)-\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2} \nonumber\\ \end{align} $$$$ \begin{align} D_{KL}(p||q)&=\log\frac{\sigma_2}{\sigma_1}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac{1}{2} \nonumber\\ \end{align} $$高斯分布的重参数化 若希望从高斯分布中采样,我们可以使用标准正态分布$\mathcal{N}(0,1)$来采样$z$,然后通过重参数化$\sigma*z+\mu$的方式将其转换为高斯分布$N(\mu,\sigma^2)$。 这样做的好处在于将随机性转移到了$z$这个常量上,使得采样过程梯度可传播,从而可以使用梯度下降等优化算法进行训练。 VAE与多层VAE 单层VAE ...

November 14, 2024 · 1 min · 111 words · Yi Liu