网站备案幕布尺寸,网站建设关键词排名,无锡网站建设哪家公司比较好,怎么做旅游网站推广整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记 背景方法OGR基于最小化OGR的多监督信号混合在实践中的应用 实验 背景 直观上#xff0c;多模态网络接收更多的信息#xff0c;因此它应该匹配或优于其单峰网络。然而#xff0c;最好的… 整理了What Makes Training Multi-modal Classification Networks Hard? 论文的阅读笔记 背景方法OGR基于最小化OGR的多监督信号混合在实践中的应用 实验 背景 直观上多模态网络接收更多的信息因此它应该匹配或优于其单峰网络。然而最好的单模态网络往往优于多模态网络。这种观察在不同的模态组合以及不同的视频分类任务和基准上是一致的。如表一所示 本文提出了两个主要原因多模态网络往往容易过拟合不同的模态过拟合和泛化率不同因此使用单一优化策略联合训练它们是次优的。图一展示了一些尝试的改进包括dropout、早停、SE门和NL门等然而这些方法都无法解决这些问题。 本文提出了一种称为顺应性混合Gradient-Blending的技术缓解这种情况这是一种新的训练方案与任务无关、与架构无关通过多个监督信号的最佳混合来最小化OGR在下文中提出。
方法
OGR 我们首先假设单峰学习和多峰学习的基本形式 L ( C ( φ m ( X ) ) , y ) \mathcal{L}(\mathcal{C}(\varphi_m(X)),y) L(C(φm(X)),y) L m u l t i ( C ( φ m 1 ⊕ φ m 2 ⊕ . . . φ m k ) , y ) \mathcal{L}_{multi}(\mathcal{C}(\varphi_{m_1}\oplus\varphi_{m_2}\oplus...\ \varphi_{m_k}),y) Lmulti(C(φm1⊕φm2⊕... φmk),y) 其中 C \mathcal{C} C表示分类器 φ m \varphi_m φm表示模态特定权重 y y y是标签。多峰网络是单峰网络的超集对于多峰网络中任何一个模态通过选择最好权重可以构造与单峰网络同样好的解然而在实际情况这是不可能的。 过拟合通常被理解为在训练集中学习到的模式不会推广到目标分布。基于这一点我们可以将第 N N N个时期的过拟合定义为 L N T \mathcal{L}_N^T LNT和 L N V \mathcal{L}_N^V LNV之间的差距。两个模型检查点之间的训练质量可以通过过拟合和泛化的变化来衡量图3中的 Δ G \Delta G ΔG Δ O \Delta O ΔO。在检查点 N N N和 N n Nn Nn之间我们可以定义过拟合与泛化比OGR O G R ≡ ∣ Δ O N , n Δ G N , n ∣ ∣ Δ O N n − O N L N ∗ − L N n ∗ ∣ OGR\equiv|\frac{\Delta O_{N,n}}{\Delta G_{N,n}}||\frac{\Delta O_{Nn}-O_N}{\mathcal{L}_N^*-\mathcal{L}_{Nn}^*}| OGR≡∣ΔGN,nΔON,n∣∣LN∗−LNn∗ΔONn−ON∣ 直观上我们可以在训练期间最小化 O G R OGR OGR但是有两个麻烦1、全局优化OGR将是非常昂贵的。2、如果是欠拟合模型那么这个损失会非常小。 因此我们建议解决一个无穷小问题给定梯度的几个估计将它们混合以最小化无穷小 O G R 2 OGR^2 OGR2我们将此混合应用于优化流程。每个梯度步长在验证损失的每单位增益上尽可能少地增加泛化误差从而最大限度地减少过拟合。在多模态设置中这意味着我们将来自多个模态的梯度估计结合起来并最小化OGR2以确保每个梯度步长现在产生的增益不比单个最佳模态的增益差。这个 L 2 L^2 L2问题允许一个简单的封闭式解决方案易于实现并且在实践中工作得很好。 考虑一个单一的参数更新步骤其估计为梯度。由于两个检查点之间的距离很小我们使用一阶近似 Δ G ≈ ∇ L ∗ , g ∗ \Delta G ≈ \nabla \mathcal{L}^*,g^* ΔG≈∇L∗,g∗和 Δ O ≈ ∇ L T − ∇ L ∗ , g ∗ \Delta O ≈ \nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^* ΔO≈∇LT−∇L∗,g∗。因此对于单个向量 g ∗ g^* g∗ O G R 2 OGR^2 OGR2为: O C R 2 ( ∇ L T − ∇ L ∗ , g ∗ ∇ L ∗ , g ∗ ) 2 OCR^2(\frac{\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,g^*}{\nabla \mathcal{L}^*,g^*})^2 OCR2(∇L∗,g∗∇LT−∇L∗,g∗)2
基于最小化OGR的多监督信号混合 我们可以通过为每个模态的特征和融合特征分别添加分类器来获得梯度的多个估计下图c。通过分别反向传播每个损失来获得每模态梯度 { g ^ i } i 1 k \{\hat g_i\}_{i1}^k {g^i}i1k。我们的下一个结果允许我们将它们全部混合到具有更好泛化行为的单个向量中。 设 { v k } 0 M \{v_k\}_0^M {vk}0M是 L ∗ \mathcal{L}^* L∗的一组估计值其过拟合近似为 E [ ∇ L T − ∇ L ∗ , v k ∇ L T − ∇ L ∗ , v j ] 0 , j ≠ k \mathbb{E}[\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_j]0,j\neq k E[∇LT−∇L∗,vk∇LT−∇L∗,vj]0,jk。给定约束 ∑ k w k 1 \sum_kw_k1 ∑kwk1该问题的最优权重 w k ∈ R w_k\in \mathcal{R} wk∈R w ∗ a r g m i n E [ ( ∇ L T − ∇ L ∗ , ∑ k w k v k L ∗ , ∑ k w k v k ) 2 ] w^*arg min \mathbb{E}[(\frac{\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,\sum_kw_kv_k}{\mathcal{L}^*,\sum_kw_kv_k})^2] w∗argminE[(L∗,∑kwkvk∇LT−∇L∗,∑kwkvk)2] are given by: w k ∗ 1 Z L ∗ , v k σ k 2 w^*_k\frac{1}{Z}\frac{\mathcal{L}^*,v_k}{\sigma_k^2} wk∗Z1σk2L∗,vk 其中 σ k 2 ≡ E [ ∇ L T − ∇ L ∗ , v k ] \sigma_k^2\equiv\mathbb{E}[\nabla \mathcal{L}^T-\nabla \mathcal{L}^*,v_k] σk2≡E[∇LT−∇L∗,vk] Z Z Z是一个标准化常数 Z ∑ k L ∗ , v k 2 σ k 2 Z\sum_k\frac{\mathcal{L}^*,v_k}{2\sigma_k^2} Z∑k2σk2L∗,vk。
在实践中的应用 我们采用多任务架构来构建上述优化的近似解决方案。即为所有模态构建单独的损失。在每个反向传播步骤中模态 m i m_i mi梯度是 ∇ L i \nabla \mathcal{L}_i ∇Li来自融合损失的梯度记为 L k 1 \mathcal{L}_{k1} Lk1。产生混合梯度 L b l e n d ∑ i 1 k 1 w i L i \mathcal{L}_{blend}\sum_{i1}^{k1}w_i\mathcal{L}_i Lblendi1∑k1wiLi 通过适当选择 w i w_i wi就产生了实现梯度混合的方便方法。直观地损失重新加权重新校准学习时间表以平衡不同模态的泛化/过拟合率。 在实践中我们无法看到目标分布结果测试集测量OGR。为了测量OGR我们保留训练集的子集V来近似目标分布。算法1提供了一种连续混合权重估计。以及两种不同的梯度混合方法算法2算法31.离线渐变混合Offline Gradient-Blending只计算一次权重并使用一组固定权重来训练整个时期。2.在线渐变混合Online Gradient-Blending完整版本定期重新计算权重例如每n个epoch称为超级epoch并使用超级epoch的新权重来训练模型。 实验 本文使用三种视频数据集进行消融Kinetics、mini-Sports和mini-AudioSet 本文的方法超过了单峰和后期融合。本文进一步验证了朴素联合训练中的过拟合问题 在这两个数据集上音频模型过拟合最多视频过拟合最少。与仅视频模型相比朴素联合音频-RGB模型具有较低的训练误差和较高的验证误差;即朴素音频-RGB联合训练增加了过拟合解释了与单独视频相比的准确性下降。我们扩展了分析考虑了三种模态音频、RGB和光流的所有4种可能组合。在每种情况下朴素联合训练的验证准确度都明显低于最佳单流模型表1而训练准确度几乎总是更高。 不同优化器的比较 表四给出了本文的方法与朴素联合训练和最佳单流模型的比较 G-Blend在不同的基准测试和任务上优于所有基线方法 在AudioSet上与最新方法的比较。GBlend在性能上大大优于现有的方法 与EPIC-Kitchen最先进方法的比较: