做网站去除视频广告,个门户网站,怎么做饲料电商网站,wordpress获取子分类系列文章链接 数据基础#xff1a;多维时序数据集简介 论文一#xff1a;2022 Anomaly Transformer#xff1a;异常分数预测 论文二#xff1a;2022 TransAD#xff1a;异常分数预测
论文链接#xff1a;Anomaly Transformer.pdf 代码链接#xff1a;https://github.co…系列文章链接 数据基础多维时序数据集简介 论文一2022 Anomaly Transformer异常分数预测 论文二2022 TransAD异常分数预测
论文链接Anomaly Transformer.pdf 代码链接https://github.com/thuml/Anomaly-Transformer 视频讲解原作者禁止转载联系的话侵删https://www.bilibili.com/video/BV1CN4y1A7x6/?spm_id_from333.337.search-card.all.clickvd_sourcec912801c215d811162cae4db751b0768
本文是清华大学研究生提出的一种异常检测模型是基于transformer针对时序数据进行编码的方案整体方案让人耳目一新。
本文的创新点总结
提出了Anomaly-Attention模块该模块有两大亮点 2.1 prior-association如下图上半部分所示采用高斯分布去拟合样本时间点位和邻近点位的数据分布通过调整参数 σ \sigma σ得到高斯先验分布更注重局部数据分布 l l l层的高斯分布计算表示为 P l R e s c a l e ( [ 1 2 π σ i e x p ( − ∣ j − i ∣ 2 2 σ i 2 ) ] i , j ∈ 1 , 2 , . . . , N ) P^lRescale([\frac{1}{\sqrt {2\pi\sigma_i}}exp(-\frac{|j-i|^2}{2\sigma_i^2})]_{i,j\in{1,2,...,N}}) PlRescale([2πσi 1exp(−2σi2∣j−i∣2)]i,j∈1,2,...,N) 2.2 series-association采用transformer中的注意力机制进行时序数据建模拟合上下文点位和目标样本点位间的权重关系用于表示点位和更大范围内的上下文数据间的关联性更注重较大范围内的信息如上图下半部分所示 l l l层的注意力关联计算为 S l s o f t m a x ( Q K T d m o d e l ) S^lsoftmax(\frac{QK^T}{\sqrt{d_{model}}}) Slsoftmax(dmodel QKT)正如上图右边所示对于正常点位而言其对应临近点高斯分布和上下文注意力分布之间差距会更大因为正常点位与上下文时序数据间关联更大对于异常点位而言它和邻近点位以及上下文时序数据的关联性较小属于比较离群的状态因此异常点位的两种分布差异很小可以通过这种差异性来区分正常点位和异常点位提出了一种新的重构损失构建方法 L t o t a l ( X ^ , P , S , λ ; X ) ∣ ∣ X − X ^ ∣ ∣ F 2 − λ ∗ ∣ ∣ A s s D i s ( P , S ; λ ; X ) ∣ ∣ 1 L_{total}(\hat X,P,S,\lambda;X)||X-\hat X||^2_F-\lambda*||AssDis(P,S;\lambda;X)||_1 Ltotal(X^,P,S,λ;X)∣∣X−X^∣∣F2−λ∗∣∣AssDis(P,S;λ;X)∣∣1左边计算的是预测值和真实数据间的重构损失差距越大表示数据越异常右边表示的是高斯分布和注意力分布间的差值损失差值越大表示数据越正常因此是减去该损失以此构建的重构损失能够让模型更好地学习到正常点位和异常点位之间的差异性训练过程中如果想让分布间的距离变大就容易导致高斯分布训练出来的 σ \sigma σ趋于0最终呈现出如下图的分布 为此他们设计了一种技巧叫Minimax Strategy在最小化阶段先固定注意力模块的权重不变让高斯分布的拟合向注意力权重分布靠近让 σ \sigma σ不至于过拟合然后在最大化二者距离的时候固定高斯分布的参数训练注意力模块的权重让最终的两种分布的距离变大如下图所示最终的异常分通过下式计算 A n o m a l y S c o r e ( X ) s o f t m a x ( − A s s D i s ( P , S ; λ ; X ) ) ⨀ [ ∣ ∣ X − X ^ ∣ ∣ 2 2 ] i 1 , 2 , . . . , N AnomalyScore(X)softmax(-AssDis(P,S;\lambda;X))\bigodot [||X-\hat X||^2_2]_{i1,2,...,N} AnomalyScore(X)softmax(−AssDis(P,S;λ;X))⨀[∣∣X−X^∣∣22]i1,2,...,N通过将重构差异和分布距离进行联合能够更好地进行异常检测当预测的异常分数超过某个阈值时就认为当前点位为异常点位