网站国际化建设方案,网页游戏不花钱的,西安做推广网站设计,承德市网站建设整理了RecSys2020 Progressive Layered Extraction : A Novel Multi-Task Learning Model for Personalized Recommendations#xff09;论文的阅读笔记 背景模型实验 论文地址#xff1a;SAFE
背景 在此之前#xff0c;对利用新闻文章中文本信息和视觉信息之间的关系(相似… 整理了RecSys2020 Progressive Layered Extraction : A Novel Multi-Task Learning Model for Personalized Recommendations论文的阅读笔记 背景模型实验 论文地址SAFE
背景 在此之前对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻例如虚假新闻也许会试图使用不相关的图片来吸引读者的注意力。本文提出了一种相似感知的新闻检测方法(SAFE)该方法研究新闻文章的多模态(文本和视觉)信息。首先分别提取文本特征和视觉特征进行新闻表示。进一步研究了跨模态提取的特征之间的关系。这种新闻文本和视觉信息的表征以及它们之间的关系被共同学习并用于预测假新闻。所提出的方法有助于根据文本、图像或不匹配来识别新闻文章的真实性。 SAFE由三个模块组成分别进行(1)多模态(文本和视觉)特征提取;(2)模态内(或者说模态无关)假新闻预测;(3)跨模态相似性提取。 主要贡献提出了第一种研究新闻文本和视觉信息之间的关系(相似性)在预测假新闻中的作用的方法联合利用多模态(文本和视觉)和关系信息来学习新闻文章的表示和预测假新闻。
模型 符号定义对于一篇新闻article A { T , V } A\{T,V\} A{T,V}由视觉信息 V V V和文本信息 T T T组成定义 t ∈ R d t\in R^d t∈Rd和 v ∈ R d v\in R^d v∈Rd作为相应的表示 t M t ( T , θ t ) tM_t(T,\theta_t) tMt(T,θt)、 v M v ( V , θ v ) vM_v(V,\theta_v) vMv(V,θv)定义相似度函数 s M s ( t , v ) sM_s(t,v) sMs(t,v)s是个0到1之间的值。通过这些信息SAFE得到文章的二分类目标 y ^ 0 / 1 \hat y0/1 y^0/1定义总的函数 M p : ( M t , M v , M s ) ⟶ θ t , θ v , θ s y ^ ∈ { 0.1 } M_p:(M_t,M_v,M_s)\stackrel{\theta_t,\theta_v,\theta_s}{\longrightarrow}\hat y\in\{0.1\} Mp:(Mt,Mv,Ms)⟶θt,θv,θsy^∈{0.1}。 文本特征提取本文使用经过全连接层扩展的Test-CNN提取每篇文章的表示其结构如图二 包含一个卷积层和最大池化给定一段包含n个单词的内容每个单词首先被编码为 x t l ∈ R k , l 1 , 2 , . . . , n x_t^l\in R^k,l1,2,...,n xtl∈Rk,l1,2,...,n经过卷积层我们会得到一个featuremap定义为 C t { c t i } i 1 n − h 1 C_t\{c_t^i\}_{i1}^{n-h1} Ct{cti}i1n−h1 h h h就是卷积核的大小对相邻的h个单词的表示进行卷积这个过程的公式 c t i σ ( w t ⋅ x t i : ( i h − 1 ) b t ) c_t^i\sigma(w_t\cdot x_t^{i:(ih-1)}b_t) ctiσ(wt⋅xti:(ih−1)bt) x i : ( i h − 1 ) x i ⊕ x i 1 ⊕ . . . ⊕ x i h − 1 x^{i:(ih-1)}x_i\oplus x_{i1} \oplus...\oplus x_{ih-1} xi:(ih−1)xi⊕xi1⊕...⊕xih−1 其中 ⊕ \oplus ⊕表示的是concat操作。通过公式我们可以看到他这里所谓的卷积就是把窗口大小的单词表示全部拼接起来然后过一个全连接层经过卷积后每一个卷积核h我们都会拿到一个n乘1的表示n是单词数量。然后对于每一个卷积核形成的featuremap进行最大池化。到这里我们定义拿到的结果为 c ^ t m a x { c t i } i 1 n − h 1 , c ^ t ∈ R g \hat c_tmax\{c_t^i\}_{i1}^{n-h1},\hat c_t \in R^g c^tmax{cti}i1n−h1,c^t∈Rg这个g就是卷积核的数量。 然后作者又对它进行了进一步的处理 t W t c ^ t b t t W_t\hat c_tb_t tWtc^tbt拿到最终的文本表示。这是一个d维的所以 W t W_t Wt的维度应该是d乘g。 图像特征提取首先使用预训练的image2sentence model然后还是使用Test-CNN提取表示流程与上文相同最后一步为 v W v c ^ v b v v W_v\hat c_vb_v vWvc^vbv拿到图像的d维表示。 到这里我们可以直接把新闻中提取到的文本和图像表示拼起来进行预测了可以用交叉熵损失训练模型。作者认为除此之外新闻文章的虚假性也可以通过评估文本信息与视觉信息的相关性来检测;假新闻创作者有时会主动使用不相关的图像进行虚假陈述以吸引读者的注意或者由于难以找到支持性的非操纵图像而被动使用它们。与提供相关文字和视觉信息的新闻文章相比那些陈述和图片不一致的新闻文章更有可能是假的。于是作者基于余弦相似度定义了一个相似度 M s ( t , v ) t ⋅ v ∣ ∣ t ∣ ∣ ∣ ∣ v ∣ ∣ 2 ∣ ∣ t ∣ ∣ ∣ ∣ v ∣ ∣ M_s(t,v)\frac {t\cdot v||t|| \ ||v||}{2||t|| \ ||v||} Ms(t,v)2∣∣t∣∣ ∣∣v∣∣t⋅v∣∣t∣∣ ∣∣v∣∣ 这个相似度是在[0,1]的范围取值通过计算得到的这个相似度作者重新定义了损失函数把相似度加进去 L ( θ t , θ v ) − E ( a , y ) ( y l o g ( 1 − M s ( t , v ) ) ( 1 − y ) l o g M s ( t , v ) ) \mathcal{L}(\theta_t,\theta_v)-E_{(a,y)}(ylog(1-M_s(t,v))(1-y)logM_s(t,v)) L(θt,θv)−E(a,y)(ylog(1−Ms(t,v))(1−y)logMs(t,v)) 本文总的模型
实验 实验使用的数据集是FakeNewsNet中的PolitiFact政治和 GossipCop八卦两个领域的数据集数据集概览 实验结果 消融实验设置(1)综合新闻文本信息、视觉信息及其关系(SAFE)在所有变体中表现最好;(2)使用多模态信息(SAFE\S或SAFE\W)比使用单模态信息(SAFE\T或SAFE\V)表现更好;(3)通过独立使用多模态信息(SAFE\S)或挖掘它们之间的关系(SAFE\W)来检测假新闻是相当的;(4)文本信息(SAFE\V)比视觉信息(SAFE\T)更重要。