深圳做网站制作,免费人脉推广官方软件,境外网址app,outlook企业邮箱文章汇总
当前的问题
目前的工作集中于单模提示发现#xff0c;即一种模态只有一个提示#xff0c;这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重#xff0c;因为视觉和文本概念及其对齐都需要推断。此外#xff0c;仅用全局特征来表示图像和标记是不…
文章汇总
当前的问题
目前的工作集中于单模提示发现即一种模态只有一个提示这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重因为视觉和文本概念及其对齐都需要推断。此外仅用全局特征来表示图像和标记是不可靠的[29,30]可能会失去目标物体的局部区域特征导致次优分类。 1:TPT 单文本提示
2:VPT 单视觉提示
3:PLOT 通过OT(最优传输距离)寻找与图像特征最相关的prompt
4:MPT 多模态提示即文本和图像都有提示
动机
通过分层OT(optimal transport)结合了多模态和令牌级对齐。
解决办法 首先每个图像以及它的标签分别有 M M M组视觉提示和 N N N组文本提示。
对应一组样本图像和标签我们先
寻找最佳提示(第一个OT)
现在我们有 M M M组视觉提示 { v m } m 1 M \{v^m\}^M_{m1} {vm}m1M和 N N N组文本提示 { t n } n 1 N \{t^n\}^N_{n1} {tn}n1N其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vm∈Rdv×b和 t n ∈ R d l × b t^n \in R^{d_l \times b} tn∈Rdl×b都是长度为 b b b的可学习提示序列。在数学上我们使用两个经验分布 P P P和$ Q $来建模两种模态的集合: 其中 x m x_m xm和 y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布这将在后面介绍。Eq. 3平等地看待每个提示并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P和 Q Q Q图像和标签之间的距离不再是先将每个图像和标签表示为单个点然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念从而产生更好的表示。因此距离可以表示为一个熵正则化的提示级OT问题[42]: 其中 λ 0 \lambda0 λ0为正则化权值 C ∈ R M × N C\in R^{M\times N} C∈RM×N为视觉集 x x x与文本集 y y y之间的代价矩阵 T ∈ R M × N T\in R^{M\times N} T∈RM×N为有边际约束的待学习传输计划如 T 1 N 1 / M , T T 1 M 1 / N T1_N1/M,T^T1_M1/N T1N1/M,TT1M1/N。注意 T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率较大的值意味着两个提示之间跨模态的高语义连接。因此Eq. 4估计了 P P P和 Q Q Q之间的期望运输成本为计算图像和标签之间的相似度提供了一个原理解决方案。
值得注意的是Eq. 4中的代价矩阵 C C C对 T T T的学习起着至关重要的作用直观地看两点之间的传输代价越大传输概率就越低。
对于每组视觉提示和每组文本提示的组合如图中的 C 2 , 3 C_{2,3} C2,3(第2组视觉提示和第3组文本提示的组合)我们都考量它的token级别的传输代价。
考量视觉patch和文本token之间的传输成本
我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见我们省略了下标 m m m和 n n n): 式中 r [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r[e~1,…,e~O,v~1,…,v~b]为输出的长度为 J b O JbO JbO的视觉patch, s [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s[t~1,…,t~b,w~k,1,…,w~k,kl]是长度为 b k l bk_l bkl的输出文本标记。与代表提示级特征的 z z z和 h h h不同 x x x和 y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地在token级OT中代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^∈RJ×L定义为 C ^ j l 1 − sim ( r j , s l ) \hat C_{jl}1-\text{sim}(r_j,s_l) C^jl1−sim(rj,sl)它衡量视觉patch和文本token之间的传输成本。因此 x x x和 y y y之间的距离是token级OT的总运输成本: 其中传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^∈RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵同时考虑了提示和令牌级别的功能: 其中 β \beta β是一个权衡参数控制令牌级成本的权重。前两项是提示级特征之间的余弦距离最后一项是token级集之间的OT距离。通过这种方式Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配从而实现详细的对齐和更好的表示。
模型的预测
一旦Eq. 4被计算出来我们按照之前的工作[17]预测图像 X j X_j Xj的标签为: 式中 C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意在我们的模型中分类器 Q k Q_k Qk的权重可以看作是标签 k k k的 N N N个文本提示上的离散均匀分布其中包含多个与类相关的语义从而提高了分类结果。由于Sinkhorn算法可微分通过最小化以下交叉熵损失可以对所提模型的所有参数进行端到端优化: 其中 y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。
摘要
视觉语言模型在提示调整方面的进步强调了它们在增强开放世界视觉概念理解方面的潜力。然而之前的工作主要集中在单模态(每种情态只有一个提示)和整体层面(图像或句子)的语义对齐上未能捕捉到样本多样性导致次优提示发现。为了解决这一限制我们提出了一个多模式令牌级调优框架该框架利用最佳传输来学习和对齐一组跨模式的提示令牌。具体来说我们依赖于两个基本因素:1)多模式提示发现它保证了不同的语义表示;2)令牌级对齐它有助于探索细粒度的相似性。因此相似性可以计算为模态特定集之间的分层运输问题。在流行的图像识别基准上进行的大量实验表明我们的方法具有优越的泛化和少样本能力。定性分析表明习得的提示符号具有捕捉不同视觉概念的能力。代码可在https://github.com/wds2014/ALIGN上获得。
1.介绍
最近提示调优在使大型预训练视觉语言模型(PVLs)如CLIP[1]和BLIP[2]适应下游任务方面取得了重大进展[3-6]。一个典型的PVL模型由两个分支网络组成:文本和图像编码器。这些网络用于提取相应的模态特征。PVL通常在web规模的图像-文本对上进行对比预训练这鼓励视觉概念与共享语义空间中的自然语言保持一致。提示调优背后的核心思想之一是将下游任务制定为原始的预训练管道。例如CLIP用一个手动提示模板““a photo of a {class}”来设计类别描述它在通用图像识别中工作得很好。与全微调不同在微调中整个模型使用特定于任务的目标进行调整需要高昂的计算成本并带来知识转移问题的风险[7-9]提示调优则固定模型参数并优化提示向量提示向量作为演示来帮助提取与任务相关的特征。这大大有利于通过PVLs表示即使在没有训练样本的情况下执行零样本推理。
然而识别PVLs的最佳提示并不是一项简单的任务它通常需要解决文本和视觉模式之间复杂的语义对齐问题。受神经语言模型(NLP)的提示学习[10,7,11]的启发提出了一种称为文本提示调优(TPT)的方法来学习CLIP文本编码器的连续提示嵌入例如“X X X X X {class}”其中“X”表示可学习向量[3,4]。通过特定任务损失优化学习到的提示嵌入提取了编码在固定参数中的预训练知识比手工方法具有更好的灵活性和效率[1]。为了提高TPT在未见类上的泛化性许多研究试图从梯度流[12,13]、原型和作文提示学习[14-16]中给出解决方案。学习单模提示往往无法捕捉到不同的概念各种方法都倾向于基于集成学习[1]、最优传输[17]和贝叶斯推理[18-20]来探索多个提示从而显示出鲁棒对齐和更好的性能。
与TPT并行视觉提示调谐(visual prompt tuning, VPT)侧重于CLIP图像编码器的patch嵌入空间[6]。VPT将图像视为一个补丁序列并引入视觉提示来增强图像表示例如“X X X X X {image}”其中“image”表示图像补丁序列。VPT提供了一种简单高效的提取任务相关视觉特征的思路已被广泛应用于许多视觉任务如视频理解[21]、领域自适应[22]、迁移学习[23]和图像分割[24-26]。最近出现了将TPT和VPT结合起来学习多模态提示的研究趋势[27,28]。然而他们目前集中于单模提示发现即一种模态只有一个提示这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重因为视觉和文本概念及其对齐都需要推断。此外仅用全局特征来表示图像和标记是不可靠的[29,30]可能会失去目标物体的局部区域特征导致次优分类。 图1:最近的提示调优方法中的对齐比较。提出的ALIGN同时学习多模态多模提示从而实现全面对齐。
为此本工作开发了一个全面的提示调优框架其中通过构建提示和令牌级最佳传输(OT)来学习多模式多模式提示。形式上在向模态特定的编码器提供多个提示输入后我们的提示级OT将每个图像视为视觉提示空间上的离散分布 P P P并将每个标签视为文本提示空间上的离散分布 Q Q Q。有了这样的表述分类任务就变成了测量 P P P和 Q Q Q之间的距离。此外伴随着全局提示级特征patch(或token)嵌入捕获目标对象的局部区域特征(或类别描述)。这激发了令牌级OT其中每个提示输出都被建模为令牌嵌入空间上的离散分布。然后在视觉补丁和文本标记之间计算成本矩阵从而实现标记级对齐。至关重要的是提示级OT中的成本矩阵(衡量来自两个域的提示之间的传输成本)现在被转换为集成全局特征和令牌级OT的输出。这种分层连接使得使用详细的标记和补丁特征来预测标签成为可能从而提高了准确性。
总之我们的方法提供了一个新的提示调优框架该框架通过分层OT结合了多种模式和令牌级对齐。提示级OT从图像和语言领域学习类的不同语义而令牌级OT探索令牌嵌入之间的细粒度对齐。值得注意的是通过不同的超参数设置所提出的模型的变体涵盖了许多以前的工作为跨不同应用的轻松适应提供了灵活性。本文的主要贡献如下:
•我们提出了一个用于多模态提示调优的多模式令牌级对齐框架其中学习了多个提示以改进视觉和文本模式的表示。通过特殊的设置许多以前的作品可以边缘到我们的框架中。
•我们将提示调优任务表述为分布匹配问题并开发了提示和令牌级OT以原则性和优雅的解决方案来处理该任务。
•我们将我们的方法应用于少样本分类、数据集迁移学习和领域泛化。在广泛使用的数据集上的实验结果表明了该模型的优越性。
2.背景
2.1 多模态提示微调
多模态提示调谐(Multi-modal prompt tuning, MPT)[28,27]是一项新开发的任务它可以联合学习PVLs的文本和视觉提示。联合调谐范例不是单独优化单峰提示而是利用PVLs的两个分支网络而且在训练期间允许两种模式之间的交互从而实现动态对齐。例如我们使用基于CLIP的视觉转换器(ViT)它由ViT作为图像编码器 f f f和transformer作为语言编码器 g g g组成。给定输入图像 X ∈ R H × W × 3 X\in R^{H\times W \times 3} X∈RH×W×3和 K K K个标签名称 { c l a s s k } k 1 K \{{class}_k\}^K_{k1} {classk}k1K。MPT首先将 b b b个可学习的标记作为视觉提示 { v i ∈ R d v } i 1 b \{v_i\in R^{d_v}\}^b_{i1} {vi∈Rdv}i1b并将另一组 b b b个可学习的标记作为文本提示 { t i ∈ R d l } i 1 b \{t_i\in R^{d_l}\}^b_{i1} {ti∈Rdl}i1b。将它们与图像补丁和类名连接起来可以得到CLIP的输出如下: 其中 c l s , e o s cls,eos cls,eos为虚拟令牌 [ e 1 , … , e O ] [e_1,\ldots,e_O] [e1,…,eO]为 O O O个图像补丁嵌入 [ w k , 1 , … , w k , k l ] [w_{k,1},\ldots,w_{k,k_l}] [wk,1,…,wk,kl]是长度为 k l k_l kl的第 k k k类token嵌入。在 f f f和 g g g的自关注层堆叠后CLIP输出标记嵌入并将 z z z和 h k h_k hk分别视为图像和标签的提示级特征。实证研究表明通过视觉-语言映射函数如 v F ( t ) v F(t) vF(t)投射语言提示 t t t比独立学习语言提示 t t t更有效地获得视觉提示 v v v[28,6]。最后MPT根据余弦相似度得分估计 x x x的标签: 式中 τ \tau τ为固定温度参数。MPT统一了TPT和VPT的思想同时对视觉提示符 v v v和文本提示符 t t t进行直接调优。Eq. 1表示文本编码器 g g g以分类提示作为输入输出 h h h作为相应的分类器权值。由于CLIP中预先训练的知识MPT保留了执行开集分类的能力。注意CLIP中的编码器 f f f和 g g g都是冻结的只有提示序列 v v v和 t t t在下游训练期间被优化。这个过程可以看作是引导编码器提取任务相关特征的一个引导步骤。
2.2 最优运输距离
最优传输(Optimal transport, OT)是测量两个分布之间距离的有效工具在最近的机器学习研究中被广泛使用如文本分析[31-33]、计算机视觉[34 - 39]和生成模型[40,41]。在这里我们回顾离散OT匹配详细信息请参阅[42]。给定两组数据点 X { x i } i 1 m X\{x_i\}^m_{i1} X{xi}i1m和 Y { y j } j 1 n Y\{y_j\}^n_{j1} Y{yj}j1n其离散分布分别表示为 p ∑ i 1 m a i δ x i p\sum^m_{i1}{a_i \delta_{x_i}} p∑i1maiδxi和 q ∑ j 1 m b i δ y i q\sum^m_{j1}{b_i \delta_{y_i}} q∑j1mbiδyi。 a ∈ Δ m , b ∈ Δ n a \in \Delta^m ,b \in \Delta^n a∈Δm,b∈Δn其中 Δ m \Delta^m Δm为 R m R^m Rm的简单概率。我们定义 X X X和 Y Y Y之间的成本矩阵为 C ( C i j ) ∈ R ≥ 0 m × n C(C_{ij}) \in R^{m\times n}_{\ge 0} C(Cij)∈R≥0m×n其中 C i j c ( x i , y j ) C_{ij}c(x_i,y_j) Cijc(xi,yj)为从 x i x_i xi到 y j y_j yj的运输成本 C C C为成本函数。OT的目标是以最小的成本将 p p p传输到 q q q: 其中 ⋅ , ⋅ \cdot,\cdot ⋅,⋅表示Frobenius点积 T ∈ R 0 m × n T \in \mathbb{R}^{m\times n}_{ 0} T∈R0m×n表示要学习的传输方案。然后在 m × n m\times n m×n空间的所有联合概率上最小化OT距离并具有两个边缘约束 Π ( p , q ) : { T : T 1 n a , T T 1 m b } \Pi(p,q):\{T:T 1_na,T^T1_mb\} Π(p,q):{T:T1na,TT1mb}其中 1 m 1_m 1m表示 m m m维的全1向量。由于在Eq. 2中直接学习最优计划 T T T对于大规模问题可能会很耗时因此来自[42,43]的Sinkhorn距离引入了对传输计划 h ( T ) ∑ m , n − T m n In ( T m n ) h(T)\sum_{m,n}-T_{mn}\text{In}(T_{mn}) h(T)∑m,n−TmnIn(Tmn)的熵约束因此得到的算法在几次迭代内估计出 T T T具有更好的灵活性和可扩展性。
3. 提出的方法
3.1 总体方法 图2:(a)提议的ALIGN的框架。ALIGN通过将特定于模式的分布与分层OT对齐来学习PVLs的多个提示。(b) ALIGN图像嵌入的t-SNE可视化。
在本节中我们将介绍我们提出的模型的技术细节该模型名为ALIGN它是一个用于优化传输的多模式提示调整的整体框架(如图2所示)。得益于精心设计的多模式令牌级对齐模块大多数现有工作可以通过特殊设置合并到我们的ALIGN中。从直观上讲人类学习一个具有各种概念的类这些概念提供了足够的语义特征如颜色、布局、形状等从而将其与其他类区分开来[17]。受此启发本作品的目标之一是同时学习 M M M个视觉提示和 N N N个文本提示。具体来说我们首先引入提示级OT其中每个图像和标签都被建模为 M M M维视觉空间和 N N N维文本空间上的离散分布 P P P和 Q Q Q。此外我们没有将提示输出表示为单个点例如全局特征 z z z和 h h h而是提取了CLIP中隐含的令牌级知识。回顾一下第 k k k类的第 n n n个文本提示输出包含 b k l b k_l bkl个标记嵌入图像的第 m m m个视觉提示输出包含 b O b O bO个补丁嵌入它们捕获了相应模态的局部区域特征。这促使我们开发令牌级别的OT为细粒度的对齐进行令牌级别的比较。因此 P P P和 Q Q Q中的第 m m m和 n n n个点本身被进一步建模为共享令牌嵌入空间上的离散分布。由于令人信服的两级OT连接其中提示级OT中的成本矩阵由令牌级OT的输出获得学习的传输计划捕获提示和令牌级特征这提供了一种原则和优雅的方法来估计标签和图像集之间的距离。
3.2 多模式token级提示对齐
在MPT学习单模提示来描述类并基于提示级特征估计相似性的基础上我们的目标是探索文本和视觉域的多模式表示并进行细粒度对齐以提高预测精度。现在我们有 M M M组视觉提示 { v m } m 1 M \{v^m\}^M_{m1} {vm}m1M和 N N N组文本提示 { t n } n 1 N \{t^n\}^N_{n1} {tn}n1N其中每个 v m ∈ R d v × b v^m\in R^{d_v \times b} vm∈Rdv×b和 t n ∈ R d l × b t^n \in R^{d_l \times b} tn∈Rdl×b都是长度为 b b b的可学习提示序列。在数学上我们使用两个经验分布 P P P和 Q Q Q来建模两种模态的集合: 其中 x m x_m xm和 y n y_n yn表示 d d d维潜在空间的第 m m m个视觉输出和第 n n n个文本输出。它们被进一步建模为标记级嵌入上的离散分布这将在后面介绍。Eq. 3平等地看待每个提示并采用均匀分布的方式对权重进行建模。有了这两个语义集 P P P和 Q Q Q图像和标签之间的距离不再是先将每个图像和标签表示为单个点然后使用余弦相似度来计算的。ALIGN倾向于挖掘多模式特征来描述各种类概念从而产生更好的表示。因此距离可以表示为一个熵正则化的提示级OT问题[42]: 其中 λ 0 \lambda0 λ0为正则化权值 C ∈ R M × N C\in R^{M\times N} C∈RM×N为视觉集 x x x与文本集 y y y之间的代价矩阵 T ∈ R M × N T\in R^{M\times N} T∈RM×N为有边际约束的待学习传输计划如 T 1 N 1 / M , T T 1 M 1 / N T1_N1/M,T^T1_M1/N T1N1/M,TT1M1/N。注意 T m n T_{mn} Tmn衡量的是从第 m m m个视觉提示到第 n n n个文本提示的传递概率较大的值意味着两个提示之间跨模态的高语义连接。因此Eq. 4估计了 P P P和 Q Q Q之间的期望运输成本为计算图像和标签之间的相似度提供了一个原理解决方案。
值得注意的是Eq. 4中的代价矩阵 C C C对 T T T的学习起着至关重要的作用直观地看两点之间的传输代价越大传输概率就越低。
一个自然的选择是用全局特征 C m n 1 − sim ( z m , h n ) C_{mn}1-\text{sim}(z^m,h^n) Cmn1−sim(zm,hn)来指定 C C C其中 z m , h n z^m,h^n zm,hn分别表示第 m m m个视觉提示和第 n n n个文本提示的提示级特征。然而上述定义主要强调提示级表示并且可能具有有限的捕获详细令牌级特征的能力例如图像中的不同补丁可能捕获不同的局部区域特征。因此获得的传输计划可能无法反映 P P P和 Q Q Q之间的真实关系。为此我们进一步引入考虑两个提示之间的令牌级对齐的令牌级OT。具体来说我们将视觉输出 x x x和文本输出 y y y指定为标记嵌入的两个经验分布(这里为了清晰起见我们省略了下标 m m m和 n n n): 式中 r [ e ~ 1 , … , e ~ O , v ~ 1 , … , v ~ b ] r[\tilde{e}_1,\ldots,\tilde{e}_O,\tilde{v}_1,\ldots,\tilde{v}_b] r[e~1,…,e~O,v~1,…,v~b]为输出的长度为 J b O JbO JbO的视觉patch, s [ t ~ 1 , … , t ~ b , w ~ k , 1 , … , w ~ k , k l ] s[\tilde{t}_1,\ldots,\tilde{t}_b,\tilde{w}_{k,1},\ldots,\tilde{w}_{k,kl}] s[t~1,…,t~b,w~k,1,…,w~k,kl]是长度为 b k l bk_l bkl的输出文本标记。与代表提示级特征的 z z z和 h h h不同 x x x和 y y y在CLIP的共享嵌入空间中收集令牌级特征。自然地在token级OT中代价矩阵 C ^ ∈ R J × L \hat C \in R^{J\times L} C^∈RJ×L定义为 C ^ j l 1 − sim ( r j , s l ) \hat C_{jl}1-\text{sim}(r_j,s_l) C^jl1−sim(rj,sl)它衡量视觉patch和文本token之间的传输成本。因此 x x x和 y y y之间的距离是token级OT的总运输成本: 其中传输计划 T ^ ∈ R J × L \hat T\in R^{J\times L} T^∈RJ×L表示第 j j j个视觉pacth传输到第 l l l个token特征提供了对齐token级特征的原则解决方案。这促使我们开发了一个综合成本矩阵同时考虑了提示和令牌级别的功能: 其中 β \beta β是一个权衡参数控制令牌级成本的权重。前两项是提示级特征之间的余弦距离最后一项是token级集之间的OT距离。通过这种方式Eq. 6结合了来自两个层次的预训练知识:提示级特征和标记级嵌入。这使得提示级OT中学习到的传输计划 T T T能够在 M M M个视觉特征和 N N N个文本特征之间进行细粒度匹配从而实现详细的对齐和更好的表示。
一旦Eq. 4被计算出来我们按照之前的工作[17]预测图像 X j X_j Xj的标签为: 式中 C j , k C^{j,k} Cj,k为第 j j j个图像和第 k k k个标签的代价矩阵。注意在我们的模型中分类器 Q k Q_k Qk的权重可以看作是标签 k k k的 N N N个文本提示上的离散均匀分布其中包含多个与类相关的语义从而提高了分类结果。由于Sinkhorn算法可微分通过最小化以下交叉熵损失可以对所提模型的所有参数进行端到端优化: 其中 y X y_X yX为图像 X X X的单热标签向量。由于采用OT公式我们提出的ALIGN的目标是学习 M M M个视觉提示序列和 N N N个文本提示序列而不引入任何神经网络。我们在附录算法中描述了我们提出的模型。
4.相关工作
单模态提示微调:有两种单模态提示调音的故事情节TPT和VPT。前者关注PLV的语言分支对连续嵌入空间中的快速学习感兴趣。作为代表性作品之一CoOp[3]使用一组可学习的向量对提示上下文进行建模并显示出比密集调优的手动提示有很大改进。为了解决未见类别的弱泛化性CoCoOp[4]通过显式地对图像实例进行条件反射来扩展CoOp这将注意力从特定的类集转移到每个输入实例从而实现更强的泛化性能。PLOT[17]不是单模提示学习而是利用提示与图像patch之间的OT距离学习多个文本提示实现多元提示调优。ProDA[19]首先成熟地设计了多个提示然后利用高斯分布对提示嵌入进行建模对提示的不确定性进行建模。相应的vpt指的是在图像输入空间中预先添加视觉补丁这也显示了将vpt用于下游任务的令人印象深刻的结果。例如Jia等[6]将可训练的视觉提示向量引入到每个Transformer层的图像patch序列中并与线性头部一起学习。尽管这些模型在各种视觉任务上表现良好但它们被设计为学习单模态提示无法利用预训练的多模态知识。
多模态提示调优:超越单模态提示调优MPT是最近引入的一项任务它可以同时学习文本提示和视觉提示。这种联合调优策略不仅提取了多模态知识而且支持跨模态提示之间的动态对齐显示出更好的泛化。Zang等人[27]提出了一个统一的提示调整框架(UPT)[27]它在不同的模态之间共享一个初始提示并设计了一个微小的网络来共同生成特定于模态的提示。几乎与UPT平行Khattak等人[28]提出了多模态提示调谐MaPLe并采用投影矩阵明确地对其语言对应的视觉提示进行条件调整允许梯度的相互传播以促进协同。相比之下本工作旨在学习多模态多模提示以更好地满足多样化综合表征的要求。此外与通过全局提示级特征来衡量图像和标签之间的相似性不同我们将每个提示建模为标记级嵌入空间上的经验分布并在分层OT框架下将提示和标记级特征结合起来计算相似性得分这为PVL适应下游任务提供了一种新颖而优雅的工具。
5.实验 图3:7个数据集的小样本学习结果其他数据集的更详细结果见附录表d . 1)。红色实线表示ALIGN方法虚线表示各种基线。所有结果以三个种子的平均值报告。 表1在11个数据集上从基础到新。提示是从16发基本设置中学习的。我们报告了基集base、新集new及其调和均值(H)的分类精度其中 H ( 2 × b a s e × n e w ) / ( b a s e n e w ) H (2 × base × new)/(base new) H(2×base×new)/(basenew)。最好的结果被突出显示。 表2:跨数据集迁移学习准确率结果。这里我们使用关键字母来表示数据集。最好的结果被突出显示。 表3:跨域概化精度结果。最好的结果被突出显示。
6.结论
提出了一种新的多模式令牌级对齐框架用于最优运输下的多模式提示调整。我们首先使用提示级OT对跨模式的多模式提示进行建模然后通过将每个提示本身视为令牌嵌入空间上的集合来引入令牌级OT。通过成本矩阵耦合这些两级OT通过结合提示级特征和标记级嵌入来获得最终预测从而实现细粒度对齐。大量的实验表明我们提出的模型在四种设置下达到了竞争性能。就局限性而言用户可能仍然需要较大的GPU内存来加载预训练的PVL权重以便将提议的模型应用于测试过程。一个潜在的解决方案是将提示调优与知识蒸馏结合起来。我们把它留给未来的研究。由于对PVL的开放世界视觉概念的理解我们的模型显示出有希望的零样本/少样本图像识别能力这有可能鼓励研究人员获得新的更好的方法来提示调整。我们的工作可能会间接导致负面影响如果有一个足够恶意或不知情的选择少样本的分类任务。
参考资料
论文下载(NeurIPS 2023)
https://arxiv.org/abs/2309.13847 代码地址
https://github.com/wds2014/ALIGN
附录