现在网站都是拿什么软件做的,百度抓取网站频率,wordpress信用卡支付,html5移动端手机网站开发流程图论文#xff1a;LEARNING DEEP REPRESENTATIONS BY MUTUAL INFORMATION ESTIMATION AND MAXIMIZATION ABSTRACT
研究目标
研究通过最大化输入和深度神经网络编码器输出之间的互信息来进行无监督表示学习目的是学习到对下游任务有用的特征表示
核心发现#xff1a;结构很重… 论文LEARNING DEEP REPRESENTATIONS BY MUTUAL INFORMATION ESTIMATION AND MAXIMIZATION ABSTRACT
研究目标
研究通过最大化输入和深度神经网络编码器输出之间的互信息来进行无监督表示学习目的是学习到对下游任务有用的特征表示
核心发现结构很重要structure matters
在目标函数中引入输入数据的局部性知识(locality)可以显著提升表示的质量这说明考虑数据的内在结构对学习好的表示很重要
特征控制方法
通过对抗性地匹配先验分布(matching to a prior distribution adversarially)这样可以控制学到的表示的特征
方法命名与性能
将这种方法命名为Deep InfoMax (DIM) 性能优于多个流行的无监督学习方法在某些标准架构的分类任务上可以与全监督学习媲美
意义与影响
为无监督表示学习开辟了新途径朝着针对特定目标的灵活表示学习目标迈出了重要一步
1. INTRODUCTION
深度学习核心目标
发现有用的特征表示训练编码器最大化输入和输出之间的互信息(MI)互信息在连续和高维设置中难以计算最新进展使得计算深度神经网络输入/输出对之间的MI成为可能
结构重要性发现
仅最大化输入与编码器输出之间的全局MI往往不足最大化表示与输入局部区域(如图像块)之间的平均MI能显著提升分类任务的表示质量全局MI在重建任务中发挥更重要作用
表示的有效性考虑
不仅关乎信息含量表示特征的独立性也很重要结合MI最大化和类似AAE的先验匹配来约束表示
Deep InfoMax (DIM)主要贡献
形式化DIM方法,同时估计和最大化输入数据与高层表示之间的互信息MI最大化过程可以优先考虑全局或局部信息使用对抗学习来约束表示具有特定的先验统计特性引入两个新的表示质量度量:基于MINE和基于NDM
创新意义
可以调整学到的表示以适应分类或重建任务提供了新的表示质量评估方法加强了与其他无监督方法的比较
2. RELATED WORK
表示学习的经典方法
独立成分分析(ICA)自组织映射(Self-organizing maps)这些方法通常缺乏深度神经网络的表示能力
近期方法
深度体积保持映射(Deep volume-preserving maps)深度聚类(Deep clustering)噪声作为目标(NAT)自监督学习或协同学习
生成模型在表示学习中的应用
常用于构建表示互信息(MI)对学习到的表示质量起重要作用包括变分自编码器、对抗自编码器等
重建误差与互信息的关系
公式: I e ( X , Y ) H e ( X ) − H e ( X ∣ Y ) ≥ H e ( X ) − R e , d ( X ∣ Y ) \mathcal{I}_{e}(X,Y)\mathcal{H}_{e}(X)-\mathcal{H}_{e}(X|Y)\geq\mathcal{H}_{e}(X)-\mathcal{R}_{e,d}(X|Y) Ie(X,Y)He(X)−He(X∣Y)≥He(X)−Re,d(X∣Y)X和Y分别表示编码器的输入和输出 R e , d ( X ∣ Y ) \mathcal{R}_{e,d}(X|Y) Re,d(X∣Y) 表示给定编码Y时X的期望重建误差 H e ( X ) \mathcal{H}_{e}(X) He(X) 和 H e ( X ∣ Y ) \mathcal{H}_{e}(X|Y) He(X∣Y) 分别表示边缘熵和条件熵
重要结论
基于重建的模型能保证中间表示包含一定量的信息双向对抗模型也有类似的保证通过对抗训练来匹配联合分布或最小化重建误差
2.1 Mutual-information estimation
基于互信息的方法历史
infomax原则倡导最大化输入和输出之间的MI是多个ICA算法的基础非线性ICA算法难以适应深度网络
MINE(互信息神经估计)特点
学习连续变量的MI估计具有强一致性可用于学习更好的隐式双向生成模型DIM遵循MINE但发现生成器是不必要的
DIM的关键发现
不需要使用基于KL的MI精确公式基于Jensen-Shannon散度(JSD)的简单替代方案更稳定可以使用各种MI估计器可以利用输入的局部结构来改善分类表示
利用已知结构的发展
在设计基于MI最大化的目标时使用输入结构并非新概念数据增强和变换可用于避免退化解通过最大化变换或空间临近相关图像间的MI可实现无监督聚类和分割
DIM与CPC的比较
CPC也是基于MI的方法,最大化全局和局部表示对之间的MI主要区别: CPC顺序处理局部特征构建部分摘要特征CPC需要为每个时间偏移训练单独的估计器DIM使用单个摘要特征,可同时预测所有局部特征DIM在训练时使用遮挡,执行自我预测和无序自回归
DIM的优势
使用单个估计器单步预测所有局部特征训练过程更简单高效具有更灵活的结构
3. DEEP INFOMAX DIMDeep InfoMax是一种无监督表示学习方法旨在通过最大化输入数据与其编码表示之间的互信息来学习丰富、紧凑的特征表示。下面我们将从几个方面对DIM进行概述。
DIM编码器结构解析
首先让我们根据图1来理解DIM的编码器结构
输入图像通过一个卷积神经网络convnet进行处理。Convnet输出一个M×M的特征图feature map其中每个位置对应输入图像的一个局部块patch。这些局部特征向量通过一个可学习的函数如池化操作进一步汇总为一个全局特征向量Y。
直观地说Y捕获了输入数据X的高层、全局信息而M×M特征图则保留了丰富的局部细节。
全局MI目标的DIM结构
接下来我们基于图2来看DIM如何实现互信息最大化
DIM同时使用高层特征向量Y和低层M×M特征图。通过一个判别器discriminator网络DIM试图区分来自同一图像的特征对即正样本和来自不同图像的特征对即负样本。正样本的特征对由同一图像的Y与其M×M特征图配对而成。负样本的特征对则通过将一个图像的Y与另一图像的M×M特征图组合而成。
直观上这鼓励编码器提取与全局特征一致的、独特的局部特征。通过最大化正负样本的区分能力DIM实际上最大化了输入与编码特征的互信息。
模型的数学形式化
为了更严格地描述DIM我们引入一些数学符号
定义编码器 E ψ : X → Y E_\psi:\mathcal{X}\to\mathcal{Y} Eψ:X→Y其中ψ为编码器参数。 E Ψ { E ψ } ψ ∈ Ψ \mathcal{E}_\Psi\{E_\psi\}_{\psi\in\Psi} EΨ{Eψ}ψ∈Ψ 表示所有可能的编码器的集合。假设我们有N个训练样本 X : { x ( i ) ∈ X } i 1 N \mathbf{X}:\{x^{(i)}\in\mathcal{X}\}_{i1}^N X:{x(i)∈X}i1N服从某个经验概率分布P。
DIM的目标是在编码器族 E Ψ \mathcal{E}_\Psi EΨ 中找到一个最优编码器 E ψ ∗ E_{\psi^*} Eψ∗使其提取的特征最大限度地保留输入数据的信息。
DIM的两个主要优化目标
DIM的训练涉及两个关键目标
互信息最大化 DIM寻找最优参数ψ以最大化输入X与其编码表示 E ψ ( X ) E_\psi(X) Eψ(X) 之间的互信息 I ( X ; E ψ ( X ) ) \mathcal{I}(X;E_\psi(X)) I(X;Eψ(X))。互信息最大化可以针对完整输入X也可以针对X的局部子集如图像块进行。 统计约束 为了引导编码器学习具有期望特性的表示DIM引入了一个统计约束。具体而言编码表示的边际分布 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 应该与某个预定义的先验分布V尽可能接近。通过惩罚 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 与V的差异DIM鼓励编码器输出符合先验假设的特征。
DIM巧妙地将互信息最大化与分布匹配结合联合优化这两个目标最终得到高度信息量和统计上可控的特征表示。
关键创新点
总结起来DIM的一些关键创新点包括
设计了一种灵活的特征提取架构可以捕获数据的不同抽象层次的信息。通过最大化全局特征与局部特征图的互信息实现了全局一致性和局部丰富性的统一。引入先验分布匹配实现了对学习到的特征分布的有效约束和控制。该方法具有很强的普适性不仅适用于图像数据也可以扩展到时序数据等其他领域。
DIM代表了无监督表示学习领域的一项重要进展为进一步提高深度学习模型的特征提取和泛化能力提供了新的思路。
3.1 MUTUAL INFORMATION ESTIMATION AND MAXIMIZATION
DIMDeep InfoMax是一种无监督表示学习方法通过最大化输入数据与其编码表示之间的互信息来学习信息丰富的特征表示。下面我们将详细解析其中的关键技术和数学原理。
互信息估计
互信息Mutual Information, MI衡量了两个随机变量之间的依赖性。对于随机变量X和Y它们的互信息定义为 I ( X ; Y ) : D K L ( J ∣ ∣ M ) \mathcal{I}(X;Y):\mathcal{D}_{KL}(\mathbb{J}||\mathbb{M}) \quad I(X;Y):DKL(J∣∣M)
其中 J \mathbb{J} J表示X和Y的联合分布 M \mathbb{M} M表示X和Y的边缘分布的乘积 D K L \mathcal{D}_{KL} DKL表示KL散度。
然而直接计算互信息在实践中往往不可行因此需要估计的方法。DIM采用了MINEMutual Information Neural Estimation的思想通过训练一个判别器网络T来估计互信息的下界。
Donsker-Varadhan估计器
基于Donsker-Varadhan (DV)表示MINE给出了互信息的如下下界 I ( X ; Y ) ≥ I ^ ω ( D V ) ( X ; Y ) : E J [ T ω ( x , y ) ] − log E M [ e T ω ( x , y ) ] ( 2 ) \mathcal{I}(X;Y) \geq \widehat{\mathcal{I}}_\omega^{(DV)}(X;Y):\mathbb{E}_\mathbb{J}[T_\omega(x,y)]-\log\mathbb{E}_\mathbb{M}[e^{T_\omega(x,y)}] \quad (2) I(X;Y)≥I ω(DV)(X;Y):EJ[Tω(x,y)]−logEM[eTω(x,y)](2)
其中 T ω : X × Y → R T_\omega:\mathcal{X}\times\mathcal{Y}\to\mathbb{R} Tω:X×Y→R是一个参数为 ω \omega ω的判别器网络。它的目标是将正样本来自联合分布 J \mathbb{J} J和负样本来自边缘分布乘积 M \mathbb{M} M尽可能区分开。
直观地说判别器T学习分配高分给正样本、低分给负样本从而估计互信息。当T的表达能力足够强时(2)中的下界会无限逼近真实的互信息。
Jensen-Shannon估计器
除了DV估计器DIM还探索了其他的互信息估计方式。一种选择是基于Jensen-Shannon散度JSD的估计器 I ^ ω , ψ ( J S D ) ( X ; E ψ ( X ) ) : E P [ − s p ( − T ψ , ω ( x , E ψ ( x ) ) ) ] − E P × P ~ [ s p ( T ψ , ω ( x ′ , E ψ ( x ) ) ) ] ( 4 ) \widehat{\mathcal{I}}_{\omega,\psi}^{(\mathrm{JSD})}(X;E_\psi(X)):\mathbb{E}_\mathbb{P}[-\mathrm{sp}(-T_{\psi,\omega}(x,E_\psi(x)))]-\mathbb{E}_{\mathbb{P}\times\tilde{\mathbb{P}}}[\mathrm{sp}(T_{\psi,\omega}(x^{\prime},E_\psi(x)))] \quad (4) I ω,ψ(JSD)(X;Eψ(X)):EP[−sp(−Tψ,ω(x,Eψ(x)))]−EP×P~[sp(Tψ,ω(x′,Eψ(x)))](4)
其中 x x x是来自数据分布 P \mathbb{P} P的样本 x ′ x^\prime x′是另一个独立的样本 s p ( z ) log ( 1 e z ) \mathrm{sp}(z)\log(1e^z) sp(z)log(1ez)是softplus函数。
这个估计器本质上是最小化正样本和负样本在判别器T上softplus值之差的期望。它与二元交叉熵损失密切相关在神经网络优化方面有着成熟的理论基础实践中往往比DV估计器更稳定。
InfoNCE估计器
DIM还可以使用基于Noise-Contrastive EstimationNCE的infoNCE估计器 T ^ ω , ψ (infoNCE) ( X ; E ψ ( X ) ) : E P [ T ψ , ω ( x , E ψ ( x ) ) − E P ~ [ log ∑ x ′ e T ψ , ω ( x ′ , E ψ ( x ) ) ] ] . (5) \widehat{\mathcal{T}}_{\omega,\psi}^{\text{(infoNCE)}}(X;E_\psi(X)):\mathbb{E}_{\mathbb{P}}\left[T_{\psi,\omega}(x,E_\psi(x))-\mathbb{E}_{\tilde{\mathbb{P}}}\left[\log\sum_{x^{\prime}}e^{T_{\psi,\omega}(x^{\prime},E_\psi(x))}\right]\right].\text{ (5)} T ω,ψ(infoNCE)(X;Eψ(X)):EP[Tψ,ω(x,Eψ(x))−EP~[logx′∑eTψ,ω(x′,Eψ(x))]]. (5)
与JSD估计器类似infoNCE也使用独立样本 x ′ x^\prime x′构造负样本。不同之处在于infoNCE使用softmax而非softplus并在求和号内加入了对数函数。
InfoNCE源自语言模型领域与二元交叉熵在噪声对比学习中有着紧密联系。实验表明infoNCE在下游任务上的表现常优于JSD但在更具挑战的数据上优势减弱。
互信息最大化
有了互信息的估计DIM的目标就是找到一个最优的编码器 E ψ E_\psi Eψ使其提取的特征表示 E ψ ( X ) E_\psi(X) Eψ(X) 与输入 X X X 的互信息最大化 ( ω ^ , ψ ^ ) G arg max ω , ψ I ^ ω ( X ; E ψ ( X ) ) ( 3 ) (\hat{\omega},\hat{\psi})_G\arg\max_{\omega,\psi}\widehat{\mathcal{I}}_\omega(X;E_\psi(X)) \quad (3) (ω^,ψ^)Gargω,ψmaxI ω(X;Eψ(X))(3)
其中 I ^ ω \widehat{\mathcal{I}}_\omega I ω 可以是上述任意一种互信息估计器。 ψ \psi ψ 和 ω \omega ω 分别表示编码器和判别器的参数下标 G G G 表示全局互信息。
与MINE相比DIM在优化过程中引入了两点创新 编码器 E ψ E_\psi Eψ 和判别器 T ω T_{\omega} Tω 共享低层的特征提取网络 C ψ C_\psi Cψ即 E ψ f ψ ∘ C ψ E_\psif_\psi\circ C_\psi Eψfψ∘Cψ, T ψ , ω D ω ∘ g ∘ ( C ψ , E ψ ) T_{\psi,\omega}D_\omega\circ g\circ(C_\psi,E_\psi) Tψ,ωDω∘g∘(Cψ,Eψ)。这种参数共享可以提高训练效率减少过拟合风险。 互信息最大化可以针对输入数据的全局特征即公式(3)也可以针对局部特征如图像块进行。DIM同时考虑了全局和局部的互信息实现了多尺度的特征学习。
负样本生成
互信息估计器的优劣很大程度上取决于负样本的质量和数量。以一个大小为 B B B 的小批次数据为例DIM通过以下方式生成负样本 将每个样本的全局特征 E ψ ( x ) E_\psi(x) Eψ(x) 与该批次中所有样本在所有位置的局部特征图组合构成 O ( B × M 2 ) O(B\times M^2) O(B×M2) 个全局-局部负样本对 类似地将每个样本的局部特征与该批次中所有样本的全局特征组合构成 O ( B × M 2 ) O(B\times M^2) O(B×M2) 个局部-全局负样本对。
这里 M × M M\times M M×M 为局部特征图的空间大小。可见负样本的数量与批次大小和特征图大小呈平方关系这对计算资源提出了挑战。
实验发现infoNCE和DV估计器需要大量负样本才能达到较好的性能而基于JSD的DIM对负样本数量不敏感在负样本减少时反而表现更优。这可能是因为JSD天然具有对称性能够自适应地调节正负样本的重要性并且实际上随着负样本的数量变小其性能优于 infoNCE。
小结
DIM通过互信息最大化的原则结合判别器估计和负样本生成技术为无监督表示学习开辟了一条新路。其创新点包括
综合考虑了多种互信息估计方式如DV、JSD和infoNCE并在实践中进行了细致的比较将全局互信息和局部互信息结合实现了多尺度特征的学习巧妙利用批次数据生成大量负样本提高了互信息估计的效果针对不同的数据和任务优化互信息估计和负样本生成策略展现出了极大的灵活性。
DIM为深度神经网络的无监督学习提供了新的思路和范式有望进一步提升模型的特征表达和泛化能力应对更加复杂和多样化的现实任务。
3.2 LOCAL MUTUAL INFORMATION MAXIMIZATION
尽管公式(3)可以用于最大化输入和输出之间的互信息但这可能并不总是最优的选择具体取决于任务的性质。例如对于图像分类任务像素级的噪声往往是无用的因此将这些信息编码到特征表示中可能无益于模型性能如在零样本学习、迁移学习等场景下。为了获得更适合分类任务的特征表示我们可以转而最大化高层特征与图像局部块之间的平均互信息。通过鼓励同一特征表示与所有局部块有较高的互信息这种方法有利于编码数据中跨块共享的信息。
假设特征向量的容量即单元数和取值范围有限且编码器不支持无限的输出配置。在最大化整个输入与特征表示的互信息时编码器可以自主选择从输入中传递何种信息如局部块或像素的特定噪声。然而如果编码器只传递某些部分输入的特定信息这并不会提高其与其他不包含该噪声的块之间的互信息。这鼓励编码器倾向于提取输入中共享的信息我们在实验中也验证了这一假设。
图3展示了我们的局部DIMDeep InfoMax框架。首先我们将输入编码为一个特征图 C ψ ( x ) : { C ψ ( i ) } i 1 M × M C_{\psi}(x):\{C_{\psi}^{(i)}\}_{i1}^{M\times M} Cψ(x):{Cψ(i)}i1M×M该特征图反映了数据中的有用结构如空间局部性这里用 i i i 进行索引。然后我们将这个局部特征图汇总为一个全局特征 E ψ ( x ) f ψ ∘ C ψ ( x ) E_\psi(x)f_\psi\circ C_\psi(x) Eψ(x)fψ∘Cψ(x)。接着我们在全局-局部特征对上定义互信息估计器最大化平均估计互信息 ( ω ^ , ψ ^ ) L arg max ω , ψ 1 M 2 ∑ i 1 M 2 I ^ ω , ψ ( C ψ ( i ) ( X ) ; E ψ ( X ) ) ( 6 ) (\hat{\omega},\hat{\psi})_{L}\arg\max_{\omega,\psi}\frac{1}{M^{2}}\sum_{i1}^{M^{2}}\widehat{\mathcal{I}}_{\omega,\psi}(C_{\psi}^{(i)}(X);E_{\psi}(X)) \quad (6) (ω^,ψ^)Largω,ψmaxM21i1∑M2I ω,ψ(Cψ(i)(X);Eψ(X))(6)
我们发现通过多种易于实现的架构可以成功地优化这种局部目标更多实现细节在附录 ( A . 2 ) ({A}.2) (A.2) 中提供。
以下是对局部互信息最大化的一些关键点 动机最大化全局互信息可能并不总是最优的因为某些任务无关的信息如图像中的噪声可能被编码而这对模型性能无益。 局部互信息通过最大化高层特征与局部块之间的平均互信息鼓励编码器提取数据中跨块共享的信息这通常更有利于分类任务。 容量约束在特征向量容量有限的情况下最大化局部互信息将促使编码器选择性地传递共享信息而非局部特定噪声。 实现框架局部DIM首先将输入编码为反映数据结构的局部特征图然后汇总为全局特征。互信息估计器在全局-局部特征对上定义目标是最大化平均估计互信息。 优化方法局部DIM目标可以通过多种易于实现的神经网络架构进行优化展现出良好的灵活性。
总的来说局部互信息最大化为无监督特征学习提供了一种新的视角通过关注数据中共享的信息而非特定噪声有望学到更鲁棒、更适合下游任务的表示。这一思想与数据增强、域适应等领域也有着内在的联系值得进一步探索。
3.3 MATCHING REPRESENTATIONS TO A PRIOR DISTRIBUTION
除了信息量的绝对大小一个好的表示还应具备其他优良特性如紧致性Gretton et al., 2012、独立性Hyvärinen Oja, 2000; Hinton, 2002; Dinh et al., 2014; Brakel Bengio, 2017、解耦性Schmidhuber, 1992; Rifai et al., 2012; Bengio et al., 2013; Chen et al., 2018; Gonzalez-Garcia et al., 2018或独立可控性Thomas et al., 2017。DIM通过隐式地训练编码器使其推前分布 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 与先验分布 V \mathbb{V} V 匹配从而在学习到的表示上施加统计约束。
具体而言如图7见附录A.2所示DIM训练一个判别器 D ϕ : Y → R D_\phi:\mathcal{Y}\to\mathbb{R} Dϕ:Y→R 来估计 V \mathbb{V} V 和 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 之间的散度 D ^ ϕ ( V ∣ ∣ U ψ , P ) \widehat{\mathcal{D}}_\phi(\mathbb{V}||\mathbb{U}_{\psi,\mathbb{P}}) D ϕ(V∣∣Uψ,P)然后训练编码器最小化这个估计值 ( ω ^ , ψ ^ ) P arg min ψ arg max ϕ D ^ ϕ ( V ∣ ∣ U ψ , P ) E V [ log D ϕ ( y ) ] E P [ log ( 1 − D ϕ ( E ψ ( x ) ) ) ] ( 7 ) (\hat{\omega},\hat{\psi})_P\arg\min_\psi\arg\max_\phi\widehat{\mathcal{D}}_\phi(\mathbb{V}||\mathbb{U}_{\psi,\mathbb{P}})\mathbb{E}_V[\log D_\phi(y)]\mathbb{E}_\mathbb{P}[\log(1-D_\phi(E_\psi(x)))] \quad (7) (ω^,ψ^)PargψminargϕmaxD ϕ(V∣∣Uψ,P)EV[logDϕ(y)]EP[log(1−Dϕ(Eψ(x)))](7)
这种方法类似于对抗自编码器AAE, Makhzani et al., 2015但没有使用生成器。它也类似于将噪声作为目标Bojanowski Joulin, 2017但不是将先验噪声样本直接用作目标而是训练编码器隐式地匹配噪声分布。
DIM的完整目标结合了全局互信息最大化、局部互信息最大化和先验匹配这三个子目标 arg max ω 1 , ω 2 , ψ ( α I ^ ω 1 , ψ ( X ; E ψ ( X ) ) β M 2 ∑ i 1 M 2 I ^ ω 2 , ψ ( X ( i ) ; E ψ ( X ) ) ) arg min ψ arg max ϕ γ D ^ ϕ ( V ∣ ∣ U ψ , P ) ( 8 ) \arg\max_{\omega_{1},\omega_{2},\psi}\left(\alpha\widehat{\mathcal{I}}_{\omega_{1},\psi}(X;E_{\psi}(X))\frac{\beta}{M^{2}}\sum_{i1}^{M^{2}}\widehat{\mathcal{I}}_{\omega_{2},\psi}(X^{(i)};E_{\psi}(X))\right)\arg\min_{\psi}\arg\max_{\phi}\gamma\widehat{\mathcal{D}}_{\phi}(\mathbb{V}||\mathbb{U}_{\psi,\mathbb{P}}) \quad (8) argω1,ω2,ψmax αI ω1,ψ(X;Eψ(X))M2βi1∑M2I ω2,ψ(X(i);Eψ(X)) argψminargϕmaxγD ϕ(V∣∣Uψ,P)(8)
其中 ω 1 \omega_1 ω1 和 ω 2 \omega_2 ω2 分别是全局目标和局部目标的判别器参数 α \alpha α、 β \beta β 和 γ \gamma γ 是超参数。我们将在下面展示这些超参数的选择会以有意义的方式影响学习到的表示。另外我们在附录A.8中还展示单独使用先验匹配就可以训练一个图像数据生成器。
关于将表示匹配到先验分布这里总结几个关键点 动机除了信息量表示的其他性质如紧致性、独立性、解耦性等也很重要这取决于具体应用。 方法DIM通过训练判别器估计编码器推前分布与先验分布的散度然后训练编码器最小化该估计从而隐式地将学习到的表示匹配到先验。 与相关工作的比较这种方法类似于对抗自编码器但没有生成器和将噪声作为目标但隐式地匹配噪声分布。 完整目标DIM的完整目标结合了全局互信息最大化、局部互信息最大化和先验匹配三个子目标通过超参数 α \alpha α、 β \beta β、 γ \gamma γ 平衡它们的相对重要性。 超参数的影响不同的超参数选择会以有意义的方式影响学习到的表示体现出DIM的灵活性。 扩展应用单独使用先验匹配就可以训练一个图像数据生成器展现出这一思想的普适性。
从数学原理上看公式(7)中判别器 D ϕ D_\phi Dϕ 的训练目标是最大化先验分布 V \mathbb{V} V 的对数概率和编码器推前分布 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 的负对数概率之和这等价于最小化这两个分布的JS散度。而编码器 E ψ E_\psi Eψ 的训练目标恰好相反是最小化判别器的散度估计从而使 U ψ , P \mathbb{U}_{\psi,\mathbb{P}} Uψ,P 尽可能接近 V \mathbb{V} V。这种对抗训练的过程使编码器逐步将输入数据映射到期望的先验分布从而在学习到的表示上施加了有效的统计约束。
总的来说将表示匹配到先验分布是DIM的一个重要创新点它为无监督学习引入了额外的归纳偏置有助于获得具备特定性质的表示。这一思想与领域知识的引入、表示的可解释性等研究方向紧密相关有望进一步提升深度学习的可用性和可靠性。
4. EXPERIMENTS
为了评估DIMDeep InfoMax学习到的表示的性质我们在四个图像数据集上进行了测试
数据集 CIFAR10和CIFAR100Krizhevsky Hinton, 2009两个小规模带标签的数据集分别包含10类和100类32×32的图像。 Tiny ImageNetImageNetKrizhevsky Hinton, 2009的缩减版图像大小为64×64共200类。 STL-10Coates et al., 2011一个源自ImageNet的数据集包含96×96的图像其中100000个无标签训练样本和每类500个带标签样本。在无监督学习期间我们对该数据集进行数据增强随机裁剪为64×64并水平翻转。 CelebAYang et al., 2015仅在附录A.5中使用一个由带有40个二值属性标签的人脸图像组成的数据集。该数据集用于评估DIM捕获比类别标签更细粒度、比单个像素更粗粒度的信息的能力。
比较方法
在实验中我们将DIM与多种无监督方法进行了比较
变分自编码器VAE, Kingma Welling, 2013β-VAEHiggins et al., 2016; Alemi et al., 2016对抗自编码器AAE, Makhzani et al., 2015BiGAN也称为具有确定性编码器的对抗学习推断Donahue et al., 2016; Dumoulin et al., 2016将噪声作为目标NAT, Bojanowski Joulin, 2017对比预测编码CPC, Oord et al., 2018
需要注意的是我们将CPC理解为使用摘要特征进行有序自回归以预测未来的局部特征与用于评估预测的对比损失JSD、infoNCE或DV无关。
有关实验中使用的神经网络架构的详细信息请参见附录A.2。
实验意义
这些实验旨在全面评估DIM在不同类型和规模的图像数据集上学习到的表示的质量。通过与多种现有无监督学习方法的比较我们可以了解DIM在特征提取、信息保留、泛化能力等方面的优势和局限性。
具体而言CIFAR10、CIFAR100和Tiny ImageNet这些带标签的数据集可以用于评估DIM学习到的表示在下游分类任务上的性能体现其特征的判别性和语义性。STL-10数据集包含大量无标签样本可以考察DIM在半监督学习设置下的表现即利用少量标签和大量无标签数据进行学习。CelebA数据集则侧重于评估DIM捕获图像中细粒度属性信息的能力这对于人脸识别、属性编辑等任务至关重要。
总的来说这些实验设置全面考虑了数据规模、标签可用性、任务类型等因素有助于深入理解DIM的特点和适用范围。通过与其他无监督方法的系统比较我们可以客观地评估DIM在表示学习领域的贡献和潜力。这不仅有助于推动DIM本身的改进和应用也为无监督学习研究提供了重要的实证基础和比较基准。
我来帮您总结这段关于如何评估表征(representation)质量的内容。
4.1 HOW DO WE EVALUATE THE QUALITY OF A REPRESENTATION?
主要评估指标 线性分类评估 使用支持向量机(SVM)可以衡量表征的线性可分性同时也是表征与标签之间互信息的代理指标 非线性分类评估 使用单隐层神经网络(200个单元)和dropout独立于线性可分性来评估表征与标签之间的互信息 半监督学习评估 在最后一个卷积层上添加小型神经网络通过微调整个编码器来评估 MS-SSIM评估 使用基于L2重建损失训练的解码器评估输入和表征之间的总体互信息可以反映编码的像素级信息量 互信息神经估计(MINE) 评估输入X与输出表征之间的互信息通过训练判别器来最大化KL散度 神经依赖度量(NDM) 使用判别器测量原始表征和打乱后的表征之间的KL散度散度越高因子之间的依赖性越强
注意事项
在评估过程中编码器的权重保持固定对于分类任务的评估除了CelebA之外的所有数据集都进行了实验其他度量指标主要在CIFAR10上进行测试分类器的模型选择是通过对最后100轮优化结果取平均得到统一设置了dropout率和学习率衰减计划以减少所有模型在测试集上的过拟合
这些评估方法各有侧重共同构成了一个全面的表征质量评估体系。通过这些指标的组合使用可以更好地理解和改进表征学习模型。
4.2 REPRESENTATION LEARNING COMPARISON ACROSS MODELS
实验总结 DIM(G)指DIM的全局目标仅设置为 ( α 1 , β 0 , γ 1 ) (\alpha1,\beta0,\gamma1) (α1,β0,γ1)。 DIM(L)指DIM的局部目标仅设置为 ( α 0 , β 1 , γ 0.1 ) (\alpha0,\beta1,\gamma0.1) (α0,β1,γ0.1)。该设置是根据附录(A.5)中的消融研究结果选择的。 先验分布我们选择了 [ 0 , 1 ] 64 [0,1]^{64} [0,1]64上的紧致均匀分布作为先验这在实践中效果优于其他先验分布例如高斯分布、单位球体或单位球面。
Classification comparisons 我们的分类结果见于表1、表2和表3。总体来说使用局部目标的DIMDIM(L)在所有数据集上均显著超越了其他模型唯一例外是CPC。具体设置架构、除了STL-10外未使用数据增强下DIM(L)的表现与完全监督的分类器相当甚至更好这表明在这种设置下模型提取的特征几乎与原始像素一样好。需要注意的是完全监督的分类器在这些基准测试中表现通常更好尤其是在使用专门架构和精心选择的数据增强时。我们在CIFAR10数据集上也获得了有竞争力的结果尽管是在不同的设置下但我们在STL-10的数据表现是无监督学习的最新成果。这些结果支持了我们的局部DIM目标适合提取类别信息的假设。
我们的结果显示infoNCE通常表现最好但在数据集较大时infoNCE与JSD之间的差异减小。DV在小数据集上可以与JSD竞争但在大数据集上表现则较差。
关于CPC我们仅能在上述设置下略微优于BiGAN。然而当我们采用Oord等人2018年提出的带有步幅裁剪的架构时CPC和DIM的表现都有显著提升。我们选择了图像宽度和高度的25%作为裁剪大小步幅为图像大小的12.5%例如CIFAR10使用8×8的裁剪步幅为4×4STL-10使用16×16的裁剪步幅为8×8总共得到了7×7的局部特征。对于DIM(L)和CPC我们都使用infoNCE以及相同的“编码与点积”架构类似于深双线性模型而不是Oord等人使用的浅双线性模型。CPC使用了三个这样的网络每个网络负责下一行中局部特征图的不同预测任务。为了简化我们省略了DIM中的先验项β。在没有数据增强的情况下使用ResNet-50架构的CPC表现不如DIM(L)。在STL-10上进行数据增强实验时使用与表2相同的编码架构CPC和DIM的表现相当CPC稍好一些。
CPC根据多个摘要特征进行预测每个特征包含关于完整输入的不同信息量。我们可以通过计算随机采样的局部特征 3 × 3 3\times3 3×3块来向DIM添加类似的行为然后最大化这些局部特征和完整局部特征集之间的互信息。当使用这种版本的DIM时我们在所有可能的 3 × 3 3\times3 3×3局部特征块上共享一个互信息估计器。这是一种特定的遮挡技术实例旨在提升DIM在STL-10上的表现。令人惊讶的是这种架构在CIFAR10上表现不如完全全局表示。总体而言在该设置下DIM的表现仅略优于CPC这表明CPC的严格自回归可能在某些任务中并非必要。
Extended comparisons 表4展示了CIFAR10数据集在线性可分性、重构MS-SSIM、互信息和依赖性NDM方面的结果。由于架构的差异我们未与CPC进行比较。在线性分类器结果SVC方面我们为每个模型训练了五个支持向量机并平均了测试准确率。对于MINE我们使用了衰减学习率调度以减少估计的方差并加快收敛。
MS-SSIM与MINE提供的互信息估计高度相关表明这些模型有效编码了逐像素信息。总体而言所有模型的依赖性均显著低于BiGAN这表明编码器输出的边际与生成器的球形高斯输入先验不匹配尽管DIM的混合局部/全局版本接近。互信息方面基于重构的模型如VAE和AAE得分较高我们发现结合局部和全局DIM目标如DIM(LG)其中 α 0.5 , β 0.1 \alpha0.5,\beta0.1 α0.5,β0.1得分非常高。有关更深入的分析请参见附录中的消融研究和最近邻分析A.4和A.5。
4.3 ADDING COORDINATE INFORMATION AND OCCLUSIONS
最大化全局和局部特征之间的互信息并不是利用图像结构的唯一方法。我们考虑通过在计算全局特征时添加输入遮挡和增加辅助任务来增强DIM这些任务旨在最大化局部特征与给定全局特征的绝对或相对空间坐标之间的互信息。这些改进提升了分类结果见表5。
对于遮挡我们在计算全局特征时随机遮挡输入的一部分同时使用完整输入计算局部特征。最大化遮挡的全局特征与未遮挡的局部特征之间的互信息可以有效鼓励全局特征编码整张图像共享的信息。对于坐标预测我们最大化模型预测局部特征 c ( i , j ) C ψ ( i , j ) ( x ) c_{(i,j)}C_\psi^{(i,j)}(x) c(i,j)Cψ(i,j)(x)的坐标 ( i , j ) (i,j) (i,j)的能力在计算全局特征 y E ψ ( x ) yE_\psi(x) yEψ(x)后目标为最大化 E [ log p θ ( ( i , j ) ∣ y , c ( i , j ) ) ] \mathbb{E}[\log p_\theta((i,j)|y,c_{(i,j)})] E[logpθ((i,j)∣y,c(i,j))]即最小化交叉熵。该任务还可以扩展为在给定全局特征 y y y的情况下最大化局部特征对 ( c ( i , j ) , c ( i ′ , j ′ ) ) (c_{(i,j)},c_{(i^{\prime},j^{\prime})}) (c(i,j),c(i′,j′))及其相对坐标 ( i − i ′ , j − j ′ ) (i-i^{\prime},j-j^{\prime}) (i−i′,j−j′)之间的条件互信息。这个目标可以表示为 E [ log p θ ( ( i − i ′ , j − j ′ ) ∣ y , c ( i , j ) , c ( i ′ , j ′ ) ) ] \mathbb{E}[\log p_{\theta}((i-i^{\prime},j-j^{\prime})|y,c_{(i,j)},c_{(i^{\prime},j^{\prime})})] E[logpθ((i−i′,j−j′)∣y,c(i,j),c(i′,j′))]。我们的结果中使用了这两个目标。
附录A.7中包含了额外的实现细节。简单来说我们的输入遮挡和坐标预测任务可以被视为对自监督特征学习中提出的修复inpaintingPathak等2016和上下文预测context predictionDoersch等2015任务的推广。通过这些任务增强DIM有助于推动我们的方法进一步向学习表示转变不仅仅是压缩低级如像素内容还包括从低级内容中提取的高层特征之间的关系分布。
5. CONCLUSION
本研究介绍了深度信息最大化Deep InfoMax, DIM一种通过最大化互信息学习无监督表示的新方法。DIM能够捕捉在结构“位置”例如图像中的块之间具有局部一致性的信息。这为学习在多种任务中表现良好的表示提供了一种简单且灵活的方法。我们认为这一方向对学习更高级别的表示具有重要意义。
6. 参考文献
1.LEARNING DEEP REPRESENTATIONS BY MUTUAL IN- FORMATION ESTIMATION AND MAXIMIZATION