郴州网站制作公司哪家好,普陀区网站建设公司哪家好,淄博网站制作价格低,上海人才招聘网站1 Introduction 随着工业4.0加速系统自动化#xff0c;系统故障的后果可能会产生重大的社会影响#xff08;Baheti和Gill 2011; Lee 2008; Lee#xff0c;Bagheri和Kao 2015#xff09;。为了防止这种故障#xff0c;检测系统的异常状态比以往任何时候都更加重要#xff…1 Introduction 随着工业4.0加速系统自动化系统故障的后果可能会产生重大的社会影响Baheti和Gill 2011; Lee 2008; LeeBagheri和Kao 2015。为了防止这种故障检测系统的异常状态比以往任何时候都更加重要并且正在以异常检测AD的名义进行研究。与此同时深度学习在对从大型系统的众多传感器和执行器收集的多变量时间序列数据进行建模方面表现出了有效性Chalapathy and Chawla 2019。因此各种时间序列ADTAD方法已经广泛采用深度学习并且它们中的每一种都通过报告比之前的方法更高的F1分数来证明其自身的优越性Choi et al. 2021年。对于一些数据集报告的F1得分超过0.9这给今天的TAD能力留下了令人鼓舞的印象。 然而大多数目前的TAD方法测量F1评分后应用一个特殊的评价协议命名为点调整PA由Xu等人提出。Audibert et al. 2020;沈李和郭2020; Su等人2019。PA的工作原理如下如果连续异常段中的至少一个时刻被检测为异常则认为整个段被正确地预测为异常。典型地F1分数是用调整的预测在下文中由F1PA表示来计算的。如果在没有PA的情况下计算F1分数则将其表示为F1。PA协议的提出是基于在异常期间内的单个警报足以采取系统恢复的措施。它已经成为TAD评估中的基本步骤并且以下一些研究仅报道了F1PA而没有F1Chen et al. 2021年。较高的F1PA已指示较好的检测能力。 然而PA有一个高估模型性能的可能性很大。典型的TAD模型产生通知输入异常程度的异常分数并且如果该分数高于阈值则预测异常。使用PA来自随机生成的异常评分的预测和良好训练的模型的预测变得相同如图1-a所示。
图1aPA使不同的异常评分难以区分。黑线、灰色区域和虚线分别指示异常分数、GT异常段和TAD阈值。在应用PA之后针对信息性和随机异常分数的预测退化为相同的调整后的预测红色。 黑色实线表示两种不同的异常分数;上面的线示出了来自良好训练的模型的信息分数而下面的线是随机生成的。阴影区域和虚线分别指示地面实况GT异常段和TAD阈值。信息分数上图是理想的因为它们仅在GT段期间较高。相比之下随机生成的异常评分下图在GT段内仅超过阈值一次。尽管存在差异但PA之后的预测变得不可区分如红线所示。如果随机异常分数可以产生与熟练检测模型一样高的F1PA则难以得出具有较高F1PA的模型比其他模型表现更好的结论。我们在第5节中的实验结果表明随机异常分数可以推翻大多数最先进的方法图1-B。 图1(b)现有的方法未能超过随机生成的异常分数的F1PA左并且即使当PA被禁止用于WADI数据集时也没有显示出对新提出的基线右的改进。 出现的另一个问题是PA是否是TAD方法评估中的唯一问题。到目前为止只报道了绝对F1没有试图建立基线和相对比较。如果二元分类器的准确率为50%则尽管是明显较大的数字但它与随机猜测没有太大区别。同样应讨论TAD的适当基线并应根据与基线相比的改进来评估未来的方法。根据我们的观察现有的TAD方法似乎没有得到显着的改善本文提出的基线。此外一些方法未能超过它。我们对一个基准数据集的观察总结在图1-b的右侧。 在本文中我们提出了一个问题是否目前的TAD方法声称带来显着的改进进行了适当的评估并提出了第一次严格的评估TAD的方向。我们的贡献总结如下
我们发现PA一个奇特的评估协议大大高估了现有方法的检测性能。我们表明在没有PA的情况下现有方法在基线上没有或大多数是微不足道的改进。基于我们的发现我们提出了一个新的基线和评估协议用于严格评估TAD。
2 背景
2.1 Types of anomaly in time-series signals时间序列信号中的异常类型 各种类型的异常存在于数据集中Choi et al. 2021年。上下文异常表示具有与正常信号不同形状的信号。集体异常指示在一段时间内累积的少量噪声。点异常指示由于信号值的快速增加或减少而与预期范围的暂时和显著偏差。点异常是目前TAD数据集中最主要的类型。
2.2 Unsupervised TAD无监督的网络 典型的AD设置假定在训练时间期间仅可访问正常数据。因此无监督方法是TAD最合适的方法之一TAD训练模型以仅在正常信号中学习共享模式。最终目标是根据输入的异常程度将不同的异常分数分配给输入即分别用于正常和异常输入的低异常分数和高异常分数。基于重构的AD方法训练模型以最小化正常输入与其重构之间的距离。在测试时间的异常输入导致大距离因为它是难以重建的。距离或重建误差用作异常分数。基于预测的方法训练模型以预测将在正常输入之后到来的信号并采取地面实况和预测信号之间的距离作为异常分数。每个类别的详细示例请参阅附录。
2.3 Assessment of TAD evaluation评估可持续发展评价 已经有几种方法指出了当前TAD评估中的缺陷。(Wu和Keogh 2021提出了基准TAD数据集的局限性并表明简单的检测器所谓的单线性对于一些数据集是足够的。他们还提供了几个合成数据集。(Lai等人2021为异常类型例如点与模式并引入了根据新标准合成的新数据集。相比之下我们提出了TAD评估中的陷阱PA高估的风险和基线的缺失以及解决方案。如果陷阱没有解决它是不可能的以评估是否改进的TAD方法是显着的即使与上述论文提出的更好的数据集。
3 Pitfalls of the TAD evaluation评估的陷阱
3.1 Problem formulation问题公式化 首先我们将在时间T期间从N个传感器观察到的时间序列信号表示为X {x1…xT}xt ∈ RN。作为常规方法其被归一化并分成一系列窗口W {w1…wT-τ1}其中wt {xt…xtτ−1}τ是窗口大小。仅针对测试数据集给出地面真值二进制标签yt ∈ {01}指示信号是否为异常1或不是0。TAD的目标是预测测试数据集中所有窗口的异常标签。通过将异常分数Awt与如下给出的阈值δ进行比较来获得标签 Awt的示例是原始输入与其重构版本之间的均方误差MSE其定义如下 其中w fθwt表示来自用θ参数化的重建模型fθ的输出。标记后精确度P、召回率R和F1得分计算如下 其中TP、FP和FN分别表示真阳性、假阳性和假阴性的数量。 所述异常测试数据集可以包含持续几个时间步长的多个异常段。我们将S表示为M个异常段的集合;即S {S1…SM}其中Sm {Sm.tm_s和tm_e分别表示Sm的开始和结束时间。如果Sm中至少有一次异常评分高于δ则PA将所有t ∈ Sm的Δ yt调整为1。使用PAEq.1变更如下 F1PA表示使用调整后的标签计算的F1分数。
3.2 Random anomaly score with high F1PAF1PA高的随机异常评分 在本节中我们证明了PA协议高估了检测能力。我们从抽象分析的P和R的方程。3并且我们在数学上表明随机生成的Awt可以实现接近1的高F1PA值。根据等式3因为F1评分是P和R的调和平均值所以它还取决于TP、FN和FP。如等式1所示。4、PA增加TP降低FN而维持FP。因此在PA之后P、R以及因此F1分数只能增加。 接下来我们证明F1PA可以很容易地接近1。首先R被重述为条件概率如下所示 让我们假设Awt是从均匀分布U01中提取的。我们使用0 ≤ δ θ ≤ 1来表示该假设的一个阈值。如果只存在一个异常段即S {{ts…te}}PA之后的R可以表示如下参考Eq.4 其中γ Prt ∈ S是测试数据集异常率PrAwt δ ε δ ε ε 0 1 δ ε。 关于更一般化的证明请参阅附录。数据集的异常率γ通常在0到0.2之间; te-ts也由数据集决定在基准数据集中通常在100到5000之间。图2描绘了当γ固定为0.05时在不同的te−ts下F1 PA随δ ε的变化。如图所示除了异常段长度较短的情况外我们总是可以通过改变δ ε来获得接近1的F1 PA。 图2均匀随机异常分数随不同te − ts的δ变化的情况下的F1PA。如果异常段相当长也就是说如果te −ts足够大则随着δ的增加F1PA接近1。
3.3 Untrained model with comparably high F1具有较高F1的未训练模型 本节显示从未经训练的模型获得的异常分数在一定程度上是信息性的。深度神经网络通常用从高斯分布N 0σ2中提取的随机权重初始化其中σ是通常小于1。在没有训练的情况下模型的输出接近于零因为它们也遵循零均值高斯分布。基于重建或基于预测的方法的异常分数通常被定义为输入和输出之间的欧几里得距离在上述情况下该距离与输入窗口的值成比例 在点异常的情况下特定传感器值突然增加。这导致比正常窗口更大的Δ Wt Δ 2的幅度这直接与GT异常的高Awt相关。第5节中的实验结果表明由Eq.8与目前的方法相当。它还表明当窗口大小变得更长时F1增加得更多。
4 Towards a rigorous evaluation of TAD严格评估可持续发展
4.1 New baseline for TAD新的基线 对于分类任务基线准确度通常被定义为随机猜测的准确度。可以说只有当分类精度超过该基线时才有改善。类似地TAD不仅需要与现有方法进行比较还需要与基线检测性能进行比较。因此基于第3.3节的发现我们建议建立一个新的基线其中F1是从具有简单架构的随机初始化重建模型的预测中测量的例如包含单层LSTM的未经训练的自动编码器。可替代地异常分数可以被定义为输入本身这是等式1的极端情况。8此时模型始终输出零而不管输入。如果新TAD模型的性能未超过该基线则应重新检查模型的有效性。
4.2 New evaluation protocol PA%K新评估方案PA%K 在上一节中我们证明了PA有很大的可能性高估检测性能。没有PA的F1可以立即解决高估。在这种情况下建议按照第4.1节中的介绍设定基线。然而根据测试数据分布F1可能会意外地低估检测能力。事实上由于不完全的测试集标记一些标记为异常的信号与正常信号共享更多的统计信息。即使在一段时间内间歇地插入异常对于该时段中的所有tyt 1。 我们使用t分布随机邻居嵌入t-SNE货车der Maaten和欣顿2008进一步研究了这个问题如图3所示。t-SNE由安全水处理SWaT的测试数据集生成Goh等人2016。蓝色和橙子分别表示正常和异常样品。大多数异常形成了一个远离正态数据分布的独特的聚类。然而一些异常窗口比异常更接近正常数据。对应于绿色和红色点的信号的可视化分别在B和c中描述。虽然两个样本都被注释为GT异常但b与a的正常数据相比c共享更多模式。仅仅因为模型不能检测到诸如b的信号而得出模型性能有缺陷的结论可能会导致低估检测能力。 因此我们提出了一种替代的评估协议PA%K它可以减轻F1PA的高估效果和低估F1的可能性。请注意它不是建议取代现有的TAD指标而是与它们沿着使用。PA%K的思想是仅当Sm中正确检测到的异常的数量与其长度的比率超过PA%K阈值K时才将PA应用于Sm。PA%K修改Eq.4如下 其中表示Sm的大小即tm-tm和K可以基于现有的知识在0和100之间手动选择。例如如果测试集标签是可靠的则允许更大的K。如果用户想要去除对K的依赖性建议测量通过将K从0增加到100获得的FlPA *k的曲线下面积。
5 Experimental results实验结果
5.1 Benchmark TAD datasets基准测试数据集 在本节中我们介绍了五个最广泛使用的水处理基准数据集的列表如下所示
安全水处理SWaTGoh et al. 2016 SWaT数据集是在11天内从一个由51个传感器组成的缩小规模的水处理测试平台上收集的Mathur和Tippenhauer 2016。在过去的4天里使用不同的攻击方法注入了41个异常而在前7天只生成了正常数据。
配水试验台WADIAhmedPalleti和Mathur 2017 WADI数据集是从一个简化的城市配水系统中获取的该系统具有123个传感器和执行器运行了16天。在前14天中只收集正常数据其余两天包含异常数据。测试数据集共有15个异常段。
服务器机器数据集SMDSu et al. 2019 SMD数据集是从28台服务器机器和38个传感器收集的持续10天;前5天仅出现正常数据最后5天间歇性注入异常。SMD数据集的结果是每台机器28个不同型号的平均值。
火星科学实验室MSL和土壤水分主动被动SMAPHundman et al. 2018 MSL和SMAP数据集是从NASA航天器收集的真实世界数据集。这些是来自航天器监测系统的意外异常伊萨报告的异常数据。与其他数据集不同训练数据中包含未标记的异常这使得训练变得困难。统计数据总结见表1。
5.2 Evaluated methods评价方法 下面我们介绍了最近提出的7种代表性的方法和第3节中研究的3种情况。
USADAudibert et al. 2020 代表无监督异常检测它在两个阶段的训练方案下训练两个自动编码器包括一个共享编码器和两个单独的解码器自动编码器训练阶段和对抗训练阶段。
DAGMMZong et al. 2018 代表深度自动编码高斯混合模型该模型采用自动编码器来产生表示向量并将其馈送到高斯混合模型。它使用估计的样本能量作为重建误差;高能量表示高异常。
LSTM-VAE 代表了一种基于LSTM的变分自动编码器该编码器采用变分推理进行重构。
OmniAnomalySu et al. 2019 应用VAE将时间序列信号建模为随机表示如果给定输入的重建可能性低于阈值则会预测异常。它还定义了重建概率的个别功能的归因得分和量化的解释。
MSCREDZhang et al. 2019 代表了一种多尺度卷积递归编码器-解码器包括卷积LSTM用于重建表征多个系统级别的输入矩阵而不是输入本身。THOCShenLiand Kwok 2020表示一个时间层次单类网络它是一个多层扩张递归神经网络和一个层次深度支持向量数据描述。
GDNDeng and Hooi 2021 表示学习传感器关系图以检测异常与学习模式的偏差的图偏差网络。 例一。随机异常评分对应于第3.2节中描述的情况。F1分数用从均匀分布U中抽取的随机生成的异常分数来测量即Awt 01。 案例2.作为异常分数的输入本身表示假设fθwt 0而不考虑wt的情况。这等于Eq.8.因此Awt 10wt 102。 案例3.来自随机化模型的异常评分对应于等式其中η表示来自随机化模型的小输出。参数在从高斯分布N00.02初始化之后被固定。
5.3 Correlation between F1PA and F1F1PA与F1的相关性 F1是检测性能的最保守指标。因此如果F1PA可靠地表示检测能力则它应该与F1至少具有一些相关性。图4绘制了SWaT和WADI的F1 PA和F1如对USAD、DAGMM、LSTMVAE、OmniAnomaly和GDN的原始研究所报告的。该图还包括情况1-3的结果。值得注意的是考虑到只有一部分数据集和方法一起报告了F1PA和F1我们只绘制了它们。对于SWaTPearson相关系数PCC和Kendall秩相关系数KRC分别为-0.59和0.07。对于WADIPCC和KRC分别为0.41和0.43。然而这些数字不足以确保相关性的存在并证实比较仅使用F1PA的方法的优效性可能存在检测性能评估不当的风险。 图4SWaT和WADI数据集上现有方法的F1PA和F1之间的相关性。图中显示了肯德尔等级相关KRC和皮尔逊相关系数PCC
5.4 Comparison results比较结果 在这里我们将AD方法的结果与情况1-3进行比较。应当注意对于情况1和2异常分数是直接生成的而不需要模型推断。对于案例3我们采用了最简单的具有LSTM层的编码器-解码器架构。情况2和3的窗口大小τ被设置为120。对于包括随机性的实验例如案例1和案例3我们用五种不同的种子重复它们并报告平均值。对于现有的方法我们使用原始论文中报告的最佳数字和官方复制的结果Choi et al. 2021;如果没有可用的分数我们参考官方提供的代码复制它们。请注意我们没有应用任何预处理例如早期时间步长删除或下采样。在以前的论文中没有提供MSL、SMAP和SMD的F1因此它们都是复制的。值得注意的是我们在论文中建议的范围内搜索最佳超参数并且我们没有应用下采样。所有阈值均从产生最佳分数的阈值获得。有关实施的进一步详情载于附录。结果示于表2中。再现的结果标记为t。粗体和下划线数字分别表示最佳和次佳结果。向上箭头↑显示以下情况的结果1F1 PA高于情况12F1高于情况2或3以较大者为准。 表2各种方法的F1评分。†表示再现结果。下面三行表示以下情况情况1。随机异常评分病例2。输入自身作为异常评分案例3。来自随机化模型的异常评分。详细解释请参阅手稿。粗体和下划线的情况分别表示最佳和次佳。在下列情况下标记↑1F1 PA高于情况12F1高于情况2或3。 显然随机生成的异常分数情况1不能检测异常因为它不反映关于输入中的异常的任何内容。相应地F1相当低这清楚地表明检测能力不足。然而当应用PA协议时情况1似乎产生远远超出现有方法的最先进的F1 PA除了SMD。如果结果仅被提供有PA如在MSL、SMAP和SMD的情况下则区分该方法是否成功地检测到异常或者其是否仅输出与输入无关的随机异常分数是不可能的。特别是MSL和SMAP的F1非常低;这意味着很难对它们进行建模因为它们都是真实世界的数据集并且训练数据包含异常。然而F1 PA似乎相当高造成了一种错觉即这些数据集的异常被很好地检测到。 SMD的Case 1的F1值低于其他数据集并且有以前的方法超过它这可能是由于SMD测试数据集的组成。根据等式如图6和图7所示F1 PA随三个参数而变化测试数据集中的异常率γ、异常段的长度te-ts和阈值δ。与其他数据集不同SMD的异常率非常低如表1所示。此外异常段的长度相对较短; 28台机器的平均长度为90不像其他数据集从数百到数千不等。这类似于图2中的最低情况图2示出了在这种情况下可实现的最大F1 PA仅约为0.8。因此我们可以得出结论PA的高估效果取决于测试数据集的分布其效果变得不太明显异常段越短。 在所有数据集中现有方法的F1大多低于案例2和案例3这意味着目前提出的方法可能相对于基线取得了微小的进步甚至没有进步。只有GDN始终超过所有数据集的基线。情况2和情况3的F1取决于输入窗口的长度。如果窗口较长F1基线会变得更大。我们在案例2中使用从1到250的各种窗口长度进行了实验并在图5中描绘了结果。对于SWaT、WADI和SMAP随着τ的增加F1在短暂下降后开始增加。出现这种增加是因为较长的窗口更可能包含更多的点异常从而导致窗口的高异常分数。如果τ变得太大F1饱和或退化可能是因为过去只包含正常信号的窗口意外地包含异常信号。 图5不同窗口大小τ的F1。随着τ的增加F1在短暂下降后大部分增加。
5.5 Effect of PA%K protocol 为了研究PA%K如何缓解PA的高估效应和F1的低估趋势我们观察了F1PA%K随不同PA%K阈值K的变化。图6示出了当K从0到100以10的增量改变时来自情况1的SWaT和完全训练的编码器-解码器的F1PA%K。K 0和K 100的F1PA%K值分别等于原始F1PA和F1。无论K的值如何经过良好训练的模型的F1PA%K都将显示恒定的结果。相应地经训练的编码器-解码器橙子的F1PA%K显示出一贯高的F1PA%K。相反病例1蓝色的F1PA%K在K增加时迅速降低。我们还建议测量曲线下面积AUC以减少对K的依赖性。在这种情况下对于训练的编码器-解码器和情况1AUC分别为0.88和0.41;这表明PA%K清楚地将前者与后者区分开来而不管K如何。 图6具有PA%K和不同K的F1评分。如果K 0它等于F1PA如果K 100它等于F1。
6 Discussion 在本文中我们已经证明目前的评估有两个方面的陷阱1由于PA高估了检测性能我们不能确保具有较高的F1 PA的方法确实具有更好的检测能力;2结果只与现有的方法进行了比较而不是对基线。在适当评估目前的成就时可以开发出更好的异常检测器。在本节中我们为未来的可持续发展评估提出了几个方向。 PA的动机即第一个陷阱的来源源于测试数据集标记过程的不完整性如4.2节所述。一个彻底的解决方案是开发一个新的基准数据集以更细粒度的方式进行注释以便时间步长标签变得可靠。由于细粒度注释需要大量资源因此通常不可行F1PA%K可以是一个很好的替代方案可以在不修改任何额外数据集的情况下减轻高估。请注意PA%K是一种评估协议可应用于F1分数以外的各种指标。对于第二个问题重要的是设置一个基线作为案例2和案例3中未训练模型的性能并测量相对于它的相对改进。窗口大小应该通过考虑其对基线的影响来仔细确定如第5.4节所述。 此外在不访问测试数据集的情况下预定义阈值在真实的世界中通常是不切实际的。相应地视野中的许多AD方法使用受试者工作特征AUROC曲线下面积进行自我评估Yi和Yoon 2020。相比之下现有的F1方法在调查测试数据集之后设置阈值或者简单地使用产生最佳F1的最佳阈值。因此检测结果很大程度上取决于阈值的选择。具有降低依赖性的其他指标如AUROC或精确召回率AUPR曲线下的面积将有助于严格的评估。即使在这种情况下所提出的基线选择方法是有效的。由于PA%K是一个协议它也可以用于上述指标。
7 Conclusion 在本文中我们首次表明应用PA可以严重高估TAD模型的能力这可能无法反映真实的建模性能。我们还提出了一个新的TAD基线并表明只有少数方法在这方面取得了显着的进步。为了减轻高估的PA我们提出了一个新的PA%K协议可以应用于现有的指标。最后我们提出了几个方向严格评估TAD方法包括基线选择。我们希望我们的研究有助于澄清目前的TAD方法的潜力并导致TAD在未来的改进。
8 Acknowledgement 这项工作得到了韩国政府MSIT资助的信息和通信技术规划与评估研究所IITP的资助[No.20210-02068人工智能创新中心No.20210-01343人工智能研究生院计划首尔国立大学]韩国国家研究基金会NRF赠款由韩国政府资助科学和信息通信技术部[2018 R1 A2 B30016282019 R1 G1 A1003253]2021年的Brain Korea 21 Plus项目通过HMC-SNU AI联盟基金在现代汽车公司的AIR实验室AI研究实验室以及三星电子