当前位置：首页 > news >正文

什么是php网站制作网页方法

news 2025/12/30 8:53:06

什么是php网站,制作网页方法,嵌入式应用软件开发流程,装饰网站开发背景2024-ESWA-Diffusion-based normality pre-training for weakly supervised video anomaly detection 基于扩散的弱监督视频异常检测常态预训练摘要1. 引言2. 相关工作3. 方法论3.1. 使用扩散自动编码器进行常态学习3.2. 全局-局部特征编码器3.2.1 局部块3.2.2 全局块3.2.3 协同… 2024-ESWA-Diffusion-based normality pre-training for weakly supervised video anomaly detection 基于扩散的弱监督视频异常检测常态预训练摘要1. 引言2. 相关工作3. 方法论3.1. 使用扩散自动编码器进行常态学习3.2. 全局-局部特征编码器3.2.1 局部块3.2.2 全局块3.2.3 协同注意融合 3.3. 多序列异常分类器学习3.3.1 多片段对比损失3.3.2 对比三重损失3.3.3. 总体损失 3.4. 集成网络 4. 实验4.1. 数据集和评估指标4.1.1 UCF-crime4.1.2 ShanghaiTech4.1.3 评估指标 4.2. 实施细节4.3. 与 SOTA 方法的比较4.3.1 UCF-crime 数据集4.3.2 ShanghaiTech 数据集 4.4. 类别异常可辨别性4.5. 定性分析4.6. 消融研究 5. 结论参考文献基于扩散的弱监督视频异常检测常态预训练论文地址摘要弱监督视频异常检测是在训练阶段检测视频中未提供帧级标签的异常帧的任务。以前的方法通常采用基于多实例学习MIL的排名损失来确保类间分离。然而这些方法无法充分利用大量正常帧中的信息。此外这些方法的性能受到基于 MIL 的分类器的错误初始预测的误导。考虑到这些缺点我们提出了一种基于扩散的常态学习预训练步骤首先涉及仅使用正常视频训练全局局部特征编码器GLFE模型以了解正常帧的特征分布。使用多序列对比损失使用正常和异常视频进一步优化生成的预训练全局局部特征编码器。我们提出的 GLFE 模型使用 Transformer 块和双分支设置中的扩张卷积金字塔捕获长距离和短距离时间特征。该模型通过引入 Co-Attention 模块自适应地学习两个分支特征之间的关系从而提供可学习的特征融合。此外我们引入了三重对比损失以更好地区分异常视频中的异常帧和正常帧。通过在两个公共基准数据集UCF-Crime 和 ShanghaiTech上进行大量实验对所开发的方法进行了评估。获得的结果与现有的最先进的弱监督方法相当或更好。关键词异常检测常态预训练弱监督学习视频理解自主监控系统 1. 引言视频异常检测VAD可以定义为自动识别视频中异常事件的任务。近年来世界各地的监控摄像头数量迅速增加导致生成了大量视频数据。然而手动检测这些视频中的异常事件效率极低且耗时。因此现有的监控基础设施无法充分发挥其潜力。因此视频异常检测已成为一项具有高度实际重要性的任务。 VAD 通常被视为一类分类OCC任务 (Chang et al., 2022; Hao, Li, Wang, Wang, Gao, 2022; Le Kim, 2023; Li, Chang, Liu, 2020)其中在训练期间仅使用正常帧。模型学习正常特征分布以生成更多正常帧。但是当提供异常帧时模型无法生成这些帧从而导致重建损失很高。如果视频中的事件具有较高的重建误差则将其归类为异常。其他无监督方法 (Zeng et al., 2021; Zhang, Gong, et al., 2022) 试图预测未来的帧。这些方法的问题在于模型缺乏有关异常事件的先验知识导致误报率很高。此外并非所有异常事件都具有公共重要性。最近的研究 (Feng, Hong, Zheng, 2021; Sultani, Chen, Shah, 2018; Tian et al., 2021) 发现一定量的有关异常的先验信息会产生更合适的结果。 Sultani et al. (2018) 将 VAD 视为一个弱监督问题其中仅提供视频级注释。弱监督视频异常检测WS-VAD的主要挑战是如何区分未修剪视频中的异常帧和正常帧。异常视频的大部分由正常帧组成这可能会在训练期间压垮模型。大多数工作使用多示例学习MIL范式来解决这个问题 (Feng et al., 2021; Li, Liu, Jiao, 2022; Sultani et al., 2018; Zhang, Huang, Liu Xu, 2022)。Sultani et al. (2018) 将每个视频视为一个包将其分成多个代表包实例的片段。异常视频形成正包正常视频形成负包。方法中的 MIL 排名损失扩大了正包和负包中异常分数最高的实例之间的分离。此后后来的几项工作提出了基于 MIL 的学习损失的改进 (Chen et al., 2023; Feng et al., 2021; Tian et al., 2021)。由于异常不仅限于一个视频片段(Feng et al., 2021; Li et al., 2022; Tian et al., 2021) 在排名损失中考虑了多个视频片段。Tian et al. (2021) 决定使用特征量级作为决定性指标而不是使用异常分数。正如 Li et al. (2022) 指出的那样现有文献使用基于 MIL 的排名损失的一个缺点是异常分类网络在初始阶段可能会错误地将帧归类为异常。然而由于缺乏真正的标签和多示例学习的固有性质这种错误会随着训练的进行而加强。这导致检测性能不佳。我们假设如果为模型提供一些数据的先验知识则可以最大限度地减少初始错误结果的问题从而提高检测性能。有用的先验信息可能是现有作品无法完全使用的正常视频中包含的大量正常特征。这是因为 Chen et al. (2023), Feng et al. (2021), Li et al. (2022), Sultani et al. (2018), Tian et al. (2021), Zhang, Huang, et al. (2022) 使用的基于 MIL 的排名损失仅考虑异常得分最高的片段进行错误计算。因此尽管 MIL 有助于缓解正常帧和异常帧之间的不平衡但大量正常帧的信息却丢失了。为了向异常检测模型提供先验信息我们提出了一个无监督的预训练步骤以从数据集中的众多正常片段中学习。这个想法是将学习正常特征分布作为预训练步骤以便当异常视频添加到训练过程中时模型可以预先了解正常特征。使用这样的预训练步骤我们还能够利用所有正常视频来提取有意义的信息而不是仅依赖于异常得分最高的帧。为此我们建议仅对正常视频使用 OCC 方法训练我们的模型。Liu, Liu, Zhao, Li, and Song (2022) 提出了一种相关方法其中在正常帧上训练初始自动编码器以提取正常特征分布然后使用 MIL 范式对其进行训练。然而他们工作中使用的基于初始的自动编码器在从视频中提取高质量特征的能力方面受到限制因此他们的工作异常帧检测性能受到影响。近年来基于扩散的模型在生成任务中非常成功其性能优于自动编码器。然而这种扩散模型的主要任务是学习输入中添加的噪声因此它们缺乏代表性学习的能力。为了在我们的环境中应用扩散模型我们需要修改模型以便可以为下游任务学习正常的特征表示。继 Preechakul, Chatthee, Wizadwongsa, and Suwajanakorn (2022) 之后我们在工作中构建了一个扩散自动编码器其中扩散过程使用编码器提取的特征作为条件。然后该编码器充当异常分类器训练的主干其中使用基于多实例的排名损失对正常和异常视频进行编码器训练。我们设计了一个全局-局部特征编码器GLFE模型作为编码器。引入了一个 Co-Attention 模块通过自适应地学习两组特征之间的关系来融合全局和局部特征。与 Tian et al. (2021) 使用的简单的位置特征串联不同这可能会导致不同尺度的特征不匹配而 Co-Attention 模块可帮助模型从全局和局部特征中学习重要信息。现有工作中发现的另一个问题是MIL 排名损失无法在异常视频中对正常帧和异常帧进行足够的区分而这在我们的环境中至关重要。这可以从图 7 中 Chen et al. (2023) 的结果中得到验证。为了实现这一点我们建议引入三重对比损失以进一步在异常视频中的两类帧之间建立适当的分离。三重对比损失的加入最小化了异常视频中的正常帧与正常视频之间的距离并扩大了异常视频中的正常帧与异常视频中的正常帧之间的距离。此外为了将异常检测纳入多个检测窗口我们在推理时使用使用不同序列大小训练的所提出的模型的集合。我们的方法的总体框架总结在图 1 中。图 2. 提出的常态学习预训练步骤概述。正常视频的 I3D 特征通过正向扩散步骤转换为纯噪声。条件 DDPM 借助条件信息 $n_{feat}$ 学习在反向扩散步骤中去除添加的噪声。通过使用等式 (1) 训练整个设置全局局部特征编码器逐渐学习常态特征分布。我们工作的主要贡献可以概括为我们提出了一个一类正常特征学习预训练步骤。为此我们设计了一个扩散自动编码器其中编码器是多序列异常分类器训练的主干模型。据我们所知这是第一项将基于扩散的常态学习作为弱监督视频异常检测的预训练步骤的工作。设计了一个双分支全局局部特征编码器模型并采用共同注意分支融合机制来捕捉局部和全局特征之间更好的相关性。我们引入了三重对比损失以进一步加强异常视频中正常片段和异常片段之间的分离。本文的其余部分安排如下。我们在第 2 节中总结了相关文献。在第 3 节中我们描述了我们提出的方法介绍了常态预训练步骤、GLFE 模型和损失函数的细节。第 4 节提供了实验细节和结果分析。最后我们在第 5 节中总结了本文。 2. 相关工作无监督视频异常检测。无监督方法通常将 VAD 任务视为异常值检测问题。只有正常视频才可作为这些方法的训练集从而使它们能够学习正常帧的特征分布。任何偏离此常态分布的内容都被归类为异常。传统方法使用手工制作的特征 (Medioni, Cohen, Brémond, Hongeng, Nevatia, 2001; Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001; Schölkopf, Williamson, Smola, Shawe-Taylor, Platt, 1999)。随着基于深度学习的生成模型的出现Chang et al. (2022), Chang, Tu, Xie, and Yuan (2020), Chen, Yue, Chang, Xu, and Jia (2021), Hao et al. (2022) 提出了几种基于重建的方法。这些方法利用生成模型的力量来学习然后生成正常帧。由于模型未在异常帧上进行训练因此它们无法生成这些异常帧从而产生高重建误差这有助于识别异常。其他方法如 (Liu, Luo, Lian, Gao, 2018)Zeng et al. (2021) 和 Yu, Lee, Yow, Jeon, and Pedrycz (2021) 利用未来帧预测来检测异常。这些方法利用预测的未来帧与基本事实之间的差异。其想法是异常帧无法预测因此会与基本事实不同。最近提出了记忆引导的常态学习方法 (Gong et al., 2019; Liu, Nie, Long, Zhang, Li, 2021; Park, Noh, Ham, 2020)改进了基于重建的方法。基于重建的方法的一个问题是生成模型泛化能力非常好甚至异常都可以重建。为了解决这个问题Gong et al. (2019) 和 Park et al. (2020) 等人在生成模型中增加了一个记忆模块来记录正常模式。然后编码器提取的深度特征充当查询以检索最近的记忆项。这样做会降低基于重建的方法的泛化能力。弱监督视频异常检测。最近的研究 (Feng et al., 2021; Li et al., 2022; Sultani et al., 2018; Tian et al., 2021) 表明在训练阶段引入带注释的异常视频可以提高无监督方法的性能。由于获取视频的逐帧标签成本过高当前最先进的SOTA方法通常采用弱监督训练其中只有视频标签可用这比逐帧标签更便宜。这些工作通常采用基于多实例学习的方法来训练模型以提供每个片段的异常分数。 Sultani et al. (2018) 提出了一种弱监督视频异常检测方法。Sultani et al. (2018) 还为 WS-VAD 引入了一个大规模数据集该数据集仅包含视频级注释。Feng et al. (2021) 提出了一种稀疏连续采样技术其中将一系列连续片段作为子包而不是从每个包中仅提取一个实例。该工作还提出了一种自训练方案来微调特征提取器。Tian et al. (2021) 在他们的工作中为 MIL 排名损失选择了前 k k k 个异常片段。损失不是增加异常分数而是增加异常视频和正常视频中特征幅度最高的片段之间的可分离性。Zaheer, Mahmood, Astrid, and Lee (2020) 设计了一个正常化抑制模块然后在排名损失中添加了聚类损失。Lv et al. (2021) 检查连续视频片段中的特征变化以定位异常。还介绍了 TAD 交通异常数据集。Ma and Zhang (2022) 提出了一种基于注意力的框架该框架执行两个视频级任务来细化帧级异常分数。Zhong et al. (2019) 使用噪声标签将该问题作为二元分类任务处理然后使用图卷积网络清除标签噪声。Chen et al. (2023) 提出了一种带有扫视和焦点网络的幅度对比损失。Yi, Fan, and Wu (2022) 建议使用批量特征标准化模块将研究方法从基于实例的相关性转变为基于批次的相关性。Gong et al. (2022) 提出了一种多尺度连续性模块以使用在多个尺度上提取的实例的连续性来细化异常分数。Ullah, Ullah, Khan, and Baik (2023) 提出了一种多头序列注意机制以从复杂视频数据集中提取更重要的时间信息。Park, Kim, Kim, Kim, and Sohn (2023) 建议使用 OCC 模型和 WS-VAD 模型的集成。Liu, Liu, et al. (2022) 除了基于多示例的学习之外还尝试使用自动编码器从数据集中的各个正常帧中进行学习。最近基于 Transformer 的方法 (Huang, Liu, et al., 2022; Li et al., 2022; Zhang, Huang, et al., 2022) 也被引入 WS-VAD。现有方法的主要缺点是 MIL 排名损失考虑的帧数有限。因此现有工作无法利用数据集中大量正常帧的完整信息。此外MIL 排名损失在不同视频类别中将异常帧和正常帧分开但无法在异常视频中将正常帧和异常帧充分分开。在这项工作中我们通过引入常态预训练步骤和对比三元组损失来解决 MIL 排名损失的这些缺陷。扩散模型。扩散模型是一种概率生成模型它能够通过首先将输入转换为纯噪声然后通过学习消除噪声来逆转该过程从而生成多样化的数据样本。近年来基于扩散的生成模型在图像到图像翻译 (Su, Song, Meng, Ermon, 2023)、文本到图像生成 (Saharia et al., 2022) 等多项生成任务上取得了最先进的成果。Ho, Jain, and Abbeel (2020) 的突破性工作提出了去噪扩散概率模型DDPM并展示了扩散模型生成高质量图像的能力。后来的几项工作如 Dhariwal and Nichol (2021), Rombach, Blattmann, Lorenz, Esser, and Ommer (2022), Song, Meng, and Ermon (2020) 都显示出了令人鼓舞的结果。尽管扩散模型在生成任务中取得了显著的成果但它们不能作为其他任务的有用表示。Preechakul et al. (2022) 设计了扩散自动编码器来从图像中提取有意义的表示。研究人员还将扩散模型应用于异常检测任务 (Wolleb, Bieder, Sandkühler, Cattin, 2022; Yan, Zhang, Liu, Pang, Wang, 2023)。Yan et al. (2023) 提出了一种 OCC 方法该方法利用扩散模型的生成能力来生成更准确、无噪声的正常帧。Wolleb et al. (2022) 提出了一种基于扩散的弱监督医学异常检测方法。作者利用扩散模型将患者的病理图像转换为无病理图像同时保留细节。然后将生成的不含病理的图像与病理图像进行比较以找出两组图像之间的差异。这些不同的区域被归类为包含病理的异常区域。这两项工作都与我们提出的方法不同。这些工作使用扩散来生成样本而我们利用扩散进行下游任务的表征学习。其他相关工作。计算机视觉是人工智能AI的一个研究非常深入和深入的分支。计算机视觉研究集中于许多应用例如恶劣天气条件下的物体检测 (Huang, Hoang, Le, 2022; Liu, Ren, et al., 2022)、伪装物体检测 (He et al., 2023)、基于骨架的动作识别 (Wu, Zhang, Zou, 2023)、动作分割 (Liu et al., 2023)、视频生成 (Luo et al., 2023) 等等。鉴于计算机视觉应用在现实生活中的重要性研究也集中于可在云端或边缘部署的高效实时解决方案 (Gao et al., 2020; Nawaratne, Alahakoon, De Silva, Yu, 2019)。计算机视觉还可应用于数字取证用于检测伪造视频Gowda Pawar2023Lee, Na, Byun, 2022、生物识别Grosz Jain, 2023Najafzadeh et al., 2023和自动车牌识别Gautam, Rana, Aggarwal, Bhosle, Sharma, 2023Pham, 2023。 3. 方法论我们提出的方法的目的是通过训练时可用的视频级注释来区分正常和异常片段。给定一组 ∣ V ∣ |\mathcal{V}| ∣V∣ 训练视频 V { V i , y i } i 1 ∣ V ∣ \mathcal{V}\left\{V_i,\ y_i\right\}^{|\mathcal{V}|}_{i1} V{Vi, yi}i1∣V∣ 其中 i 1 i1 i1每个视频 V i { v j } j 1 T V_i\left\{v_j\right\}^{T}_{j1} Vi{vj}j1T 由 T T T 个片段组成并具有视频级标签 y i ∈ Y { 0 , 1 } y_i\in Y\left\{0,\ 1\right\} yi∈Y{0, 1}表示视频是否包含异常。根据之前的研究我们使用预训练的特征提取器为 V \mathcal{V} V 中的每个视频提取维度 D D D 的片段特征 F { f j } j 1 T \mathcal{F}\left\{f_j\right\}^{T}_{j1} F{fj}j1T。然后使用从正常视频中提取的片段特征 { f j } j 1 T \left\{f_j\right\}^{T}_{j1} {fj}j1T 对我们的 GLFE 模型进行预训练使用去噪扩散如第 3.1 节所述。这里 n n n 表示来自正常视频的特征。一旦编码器模型学习了正常的特征分布我们就会引入异常视频并使用多序列学习损失来训练分类器。我们的模型表示为 E s ϕ ( f θ ( F ) ) \mathcal{E}s_{\phi}\left(f_{\theta}\left(\mathcal{F}\right)\right) Esϕ(fθ(F))其中 f θ f_{\theta} fθ 表示 GLFE s ϕ s_{\phi} sϕ 是片段分类器其输出给出异常分数。我们将在本节的剩余部分详细介绍我们提出的方法的每个组成部分。 3.1. 使用扩散自动编码器进行常态学习使用基于 MIL 的训练的弱监督异常检测仅考虑少数片段进行损失计算。因此数据集中的大量正常信息会丢失。此外在训练的初始阶段该模型预测异常的能力较差这可能会导致性能下降。为了缓解这些问题我们提出将常态学习作为预训练步骤。按照单标签视频异常方法我们仅使用正常视频来训练我们的 GLFE f θ f_{\theta} fθ 以学习常态数据分布。为此我们建议使用扩散自动编码器来学习常态分布图 2。受 Preechakul et al. (2022) 的启发我们使用 GLFE 从输入中提取长期和短期时间信息然后将其作为条件提供给去噪扩散概率模型DDPM该模型充当解码器以生成常态特征。我们的想法是我们的 GLFE 模型将学习提取相关信息这将有助于 DDPM 解码器生成常态特征。因此经过几次迭代GLFE 会学习常态特征分布。图 2. 提出的常态学习预训练步骤概述。正常视频的 I3D 特征通过正向扩散步骤转换为纯噪声。条件 DDPM 借助条件信息 $n_{feat}$ 学习在反向扩散步骤中去除添加的噪声。通过使用等式 (1) 训练整个设置全局局部特征编码器逐渐学习常态特征分布。根据 Ho et al. (2020) 的说法前向扩散步骤包括向输入特征 { f j b } j 1 T \left\{f_{j}^{b}\right\}^{T}_{j1} {fjb}j1T 迭代添加噪声。与 Ho et al. (2020) 一样因此前向扩散过程可以表述为 q ( x t ∣ x 0 ) N ( x t ; α ˉ t x 0 , ( 1 − α ˉ t ) I ) q\left (x_t|x_0\right)\mathcal{N}\left(x_t;\ \sqrt{\bar{\alpha}_t}x_0,\ \left(1-\bar{\alpha}_t\right)\mathbf{I}\right) q(xt∣x0)N(xt; αˉt x0, (1−αˉt)I)其中 α ˉ t x 0 \sqrt{\bar{\alpha}_t}x_0 αˉt x0 是均值为、方差为 ( 1 − α ˉ t ) I \left(1-\bar{\alpha}_t\right)\mathbf{I} (1−αˉt)I 的常态分布 x t x_t xt 是任意时间步长 t t t 的输出噪声特征。这里 α ˉ t \bar{\alpha}_t αˉt 定义为 α ˉ t ∏ t s 1 α s , α t 1 − β t \bar{\alpha}_t{\textstyle \prod_{t}^{s1}}\alpha_s,\ \alpha_t1-\beta_t αˉt∏ts1αs, αt1−βt其中 β t \beta_t βt 是在时间步 t t t 添加的高斯噪声的方差。最终的噪声特征由 x τ x_\tau xτ 给出其中 τ \tau τ 的值设置为一个大数在本例中为 1000。反向扩散过程包括一个神经网络学习去除前向扩散步骤中添加的噪声。除了噪声 x τ x_\tau xτ神经网络还将来自 GLFE 的信息作为条件输入。从数学上讲DDPM 模型 p ( x t − 1 ∣ x t , n f e a t ) p\left(x_{t−1}|x_t,\ n_{feat}\right) p(xt−1∣xt, nfeat) 以编码器 f θ ( x 0 ) f_\theta\left(x_0\right) fθ(x0)从正常视频特征 { f j n } j 1 T \left\{f_{j}^{n}\right\}^{T}_{j1} {fjn}j1T 中提取的附加信息 n f e a t n_{feat} nfeat 为条件。条件 DDPM 的输入为 ( n f e a t , x τ ) \left(n_{feat},\ x_\tau\right) (nfeat, xτ)并生成输出常态特征向量。根据 Dhariwal and Nichol (2021) 的说法DDPM 网络是 UNet 的修改版本。UNet 使用 Ho et al. (2020) 中所述的 L s i m p l e L_{simple} Lsimple 损失进行训练。其中 ϵ t ∈ R 3 × h × w ∼ N ( 0 , I ) , x t α ˉ t x 0 1 − α ˉ t ϵ t \epsilon_t\in \mathbb{R}^{3\times h\times w}\sim \mathcal{N}\left(\mathbf{0} ,\ \mathbf{I} \right),\ x_t\sqrt{\bar{\alpha}_t}x_0\sqrt{1-\bar{\alpha}_t}\epsilon_t ϵt∈R3×h×w∼N(0, I), xtαˉt x01−αˉt ϵt。 3.2. 全局-局部特征编码器为了捕获全局时间信息以及多尺度局部时间信息我们提出了一个全局-局部特征编码器。根据 Tian et al. (2021) 的研究我们设计了两个独立的局部和全局分支。前者侧重于收集多尺度的局部时间依赖关系。后者侧重于对长距离时间依赖关系进行建模。这两个分支并行处理并融合特征。图 3. (a) 我们的 GLFE 模型的结构。GLFE 由两个块组成即局部左和全局右特征提取块。局部块使用具有不同扩张率的扩张卷积层金字塔来提取不同时间尺度的局部特征。全局块使用自注意力块来提取全局时间特征。两个块提取的特征使用共同注意模块融合在一起。 (b) 共同注意模块的结构。第 3.2.3 节提供了此块的详细说明。 3.2.1 局部块局部块由一个扩张卷积层金字塔组成在时间域上应用了多个扩张因子。给定预先计算的特征 F { f j } j 1 T \mathcal{F} \left \{f_j\right \}^{T}_{j1} F{fj}j1T每个 f j f_j fj 都可以写成一个 D D D 维向量 [ f d ] d 1 D \left [\mathbf{f}_d\right ]^{D}_{d1} [fd]d1D。对于每个 f d \mathbf{f}_d fd滤波器大小为 K \mathcal{K} K 的扩张卷积运算权重 W i , d ( l ) ∈ R K {\rm W}_{i,\ d}^{\left(l\right)}\in\mathbb{R}^\mathcal{K} Wi, d(l)∈RK 可以表示为其中 i ∈ { 1 , . . . , D / 4 } , d ∈ { 1 , . . . , D } , l ∈ { D C 1 , D C 2 , D C 3 } i\in\left\{1,\ ...,\ D/4\right\},\ d\in\left\{1,\ ...,\ D\right\},\ l\in\left\{DC1,\ DC2,\ DC3\right\} i∈{1, ..., D/4}, d∈{1, ..., D}, l∈{DC1, DC2, DC3} 表示扩张因子为 1 , 2 , 4 {1,\ 2,\ 4} 1, 2, 4 的扩张卷积第 l l l 个扩张卷积算子表示为 ∗ ( ) ∗^{\left(\right)} ∗(l)。每层的输出连接在一起并传递到 1 − D \rm 1-D 1−D 卷积层。局部块的输出表示为 F L \mathcal{F}_{\mathcal{L}} FL。 3.2.2 全局块鉴于 Vision Transformer 在各种视觉任务中的出色表现我们利用 Transformer 块来实现视频片段之间的全局依赖关系。然而与 ViT 模型 (Dosovitskiy et al., 2020) 不同我们只使用一个自注意力模块而不是多头自注意力。此外我们将这种自注意力应用于时间维度以捕获时间视频片段之间的相关性。首先预先计算的特征 F { f j } j 1 T \mathcal{F}\left\{f_j\right\}^{T}_{j1} F{fj}j1T 被传递到线性投影层该层将特征的维度从 F ∈ R T × D \mathcal{F}\in\mathbb{R}^{T\times D} F∈RT×D 嵌入到 F e ∈ R T × D / 2 \mathcal{F}^{e}\in\mathbb{R}^{T\times D/2} Fe∈RT×D/2。为了在视频片段之间注入相对位置信息我们使用不同频率的正弦和余弦函数类似于 Vaswani et al. (2017)。其中 d e m b e d d_{embed} dembed 是线性嵌入的维度 j j j 是视频片段的时间位置 i ∈ [ 0 , . . . ( d e m b e d / 2 − 1 ) ] i\in\left[0,\ ...\ \left(d_{embed}/2−1\right)\right] i∈[0, ... (dembed/2−1)] 是通道维度索引。然后将其发送到自注意力模块其中前三个线性层产生查询、键和值映射 F Q e , F Q e , F V e ∈ R T × D / 2 \mathcal{F}_Q^e,\ \mathcal{F}_Q^e,\ \mathcal{F}_V^e\in \mathbb{R}^{T\times D/2} FQe, FQe, FVe∈RT×D/2。注意力图 A ∈ R T × T \mathcal{A}\in\mathbb{R}^{T\times T} A∈RT×T 是通过 F Q e \mathcal{F}_Q^e FQe 和 F K e \mathcal{F}_K^e FKe 之间的缩放点积的 softmax 实现的。注意力图提供视频片段之间的成对相关性。自注意力模块的输出由 F s A . F V e \mathcal{F}^s\mathcal{A}.\mathcal{F}_V^e FsA.FVe 生成。在自注意力模块之后使用嵌入特征 F e \mathcal{F}^e Fe 添加跳跃连接然后是层归一化层。输出为 F l N o r m L a y e r ( F e F s ) \mathcal{F}^l{Norm}_{Layer}\left(\mathcal{F}^e\mathcal{F}^s\right) FlNormLayer(FeFs)。除了自注意力模块之外一个完全连接的前馈网络也被添加到全局块中。标准化的输出 F l \mathcal{F}^l Fl 通过前馈网络该网络由两个完全连接的层组成中间有 GELU 激活。其中 W 1 , W 2 W_1,\ W_2 W1, W2 是两个线性层的权重 b 1 b_1 b1 和 b 2 b_2 b2 是各自的偏差。最后添加跳跃连接并执行层归一化。全局块的输出如下局部块和全局块的特征通过共同注意块融合在一起下面将详细介绍。 3.2.3 协同注意融合我们的模型并行处理多个尺度的局部信息和全局表示。因此两个不同视角的融合成为一项重要任务。为此Tian et al. (2021) 简单地使用来自两个块的特征的位置级联的 1D 卷积融合了双重表示。但是考虑到两种表示的不同尺度使用预定义的固定融合例如级联可能会导致特征不匹配。继 Mao et al. (2021) 之后我们引入了一种协同注意的尺度间融合方法如图 3(b) 所示。该协同注意融合模块可帮助模型自适应地学习局部和全局特征之间的关系从而实现多尺度特征的动态和可学习融合。给定局部和全局块 F L \mathcal{F}_\mathcal{L} FL 和 F G \mathcal{F}_\mathcal{G} FG 的输出首先使用单独的线性层生成两者的查询、键和值映射。 F L \mathcal{F}_\mathcal{L} FL 的映射为 Q L , K L , V L ∈ R T × D / 2 Q_L,\ K_L,\ V_L\in \mathbb{R}^{T\times D/2} QL, KL, VL∈RT×D/2 F G \mathcal{F}_\mathcal{G} FG 的映射为 Q G , K G , V G ∈ R T × D / 2 Q_G,\ K_G,\ V_G\in \mathbb{R}^{T\times D/2} QG, KG, VG∈RT×D/2。按照 Mao et al. (2021) 的方法通过计算每对 F L \mathcal{F}_\mathcal{L} FL 和 F G \mathcal{F}_\mathcal{G} FG 之间的相关性来生成注意力图。注意力图如下所示其中 d d d 等于 D 2 N h e a d \frac{\frac{D}{2}}{N_{head}} Nhead2D N h e a d N_{head} Nhead 是注意力头的数量我们将其设置为 1。注意力图 A L → G \mathcal{A}_{L\to G} AL→G 和 A G → L \mathcal{A}_{G\to L} AG→L 的大小均为 T × T T\times T T×T。 A G → L \mathcal{A}_{G\to L} AG→L 提供全局特征中不同标记与局部特征的相关性。类似地可以使用 A L → G \mathcal{A}_{L\to G} AL→G 从全局特征中提取局部特征中的重要关系。因此该模型可以从局部和全局特征中学习重要信息而不是使用固定的融合方法。然后计算混合特征为最后混合特征被传递到两个独立的 1 − D \rm 1-D 1−D 卷积投影层并将输出连接起来。然后协同注意模块 F c o \mathcal{F}_{co} Fco 的输出由 1 − D \rm 1-D 1−D 卷积投影给出这将特征的维度降低到输入维度 D / 2 D/2 D/2。使用输入 F \mathcal{F} F 添加跳跃连接最终给出全局-局部特征编码器 f θ f_\theta fθ 的输出 Conv1D 用于将输入的维度更改为 F c o \mathcal{F}_{co} Fco 的维度。然后将输出 F o u t \mathcal{F}_{out} Fout 传递到层归一化层。剪辑分类器 s ϕ s_\phi sϕ 由完全连接层和 sigmoid 激活层组成。因此异常分数 S \mathcal{S} S 由以下公式给出其中 W 3 W_3 W3 和 b 3 b_3 b3 是线性层的权重和偏差。 3.3. 多序列异常分类器学习对于学习目标我们利用了四种损失多序列对比损失、平滑损失、稀疏性损失和对比三重损失进一步将异常片段与异常视频中的正常片段区分开来。见图 4。图 4. 异常分类器训练流程图。我们向预训练的 GLFE 模型提供两种视频类型的剪辑使其能够生成逐个剪辑的异常分数。我们从异常和正常视频中选择异常分数最大的剪辑序列然后使用我们描述的训练损失 $\mathcal{L}$ 增加特征分布之间的距离。 3.3.1 多片段对比损失由于视频的异常部分通常持续多个连续剪辑因此我们选择多个剪辑片段。所选序列的长度由 K K K 给出。给定异常分数 S { s i } i 1 T \mathcal{S}\left\{s_i\right\}_{i1}^T S{si}i1T对于每个剪辑 i i i我们形成一个 K K K 连续剪辑的窗口 W { w k } k 1 K \mathcal{W}\left\{w_k\right\}_{k1}^K W{wk}k1K其中 w k w_k wk 包含来自序列 [ s i − K / 2 , . . . s i , . . . s i K / 2 ] \left[s_{i-K/2},\ ...\ s_i,\ ...\ s_{iK/2}\right] [si−K/2, ... si, ... siK/2] 的分数。计算所有 L L L 这样的 K K K 连续剪辑序列的平均异常分数。通过 max ⁡ 1 ≤ l ≤ K S l \max_{1\le l\le K}\mathcal{S}_l max1≤l≤KSl 选择具有最大平均异常分数的序列。按照 Chen et al. (2023) 的方法我们使用对比损失通过适当的分布在正常和异常视频之间进行区分。我们的模型提取的特征由 X f θ ( F ) {\rm X}f_\theta\left(\mathcal{F}\right) Xfθ(F) 给出其中 X \rm X X 的每一行 x t {\rm x}_t xt 都给出每个视频片段的特征。让我们将 max ⁡ 1 ≤ l ≤ K S l \max_{1\le l\le K}\mathcal{S}_l max1≤l≤KSl 选择的视频片段的特征表示为 M l M_l Ml。按照 Chen et al. (2023) 中的公式多序列对比损失定义为其中 B \rm B B 是训练批次的大小 m m m 是边距。异常片段索引用 u , v u,\ v u, v 表示正常片段索引用 p p p 和 q q q 表示。 M l , n M_{l,\ n} Ml, n 和 M l , a M_{l,\ a} Ml, a 分别是从正常和异常视频用 n n n 和 a a a 表示中选择的片段窗口的特征。特征距离由距离函数 D D D 给出。 c c c 是一个指示变量其中 c 1 c1 c1 表示一对片段 p , u p,\ u p, u 是从正常和异常视频中采样的。在这种情况下该对特征之间的距离会增加损失。另一方面当 c 0 c0 c0 时采样的片段对 u , v u,\ v u, v 或 p , q p,\ q p, q 均为异常或正常导致损失减小特征距离。取成对欧几里得距离作为距离函数 D D D。 3.3.2 对比三重损失使用多序列对比损失模型可以区分正常视频中的正常帧和异常视频中的异常帧。但是损失函数不会在异常视频中创建正常和异常片段之间的分离。这可能会妨碍异常视频中的检测性能因为异常视频中的大多数片段都是正常的。为此我们提出了一种对比三元组损失以进一步区分异常视频中的正常和异常片段。我们从正常和异常对中选择得分最低的窗口。我们将正常视频中得分最低的窗口 min ⁡ 1 ≤ l ≤ L S l , n \min_{1\le l\le L}\mathcal{S}_{l,\ n} min1≤l≤LSl, n 设置为锚点。异常视频中得分最低的窗口和得分最高的窗口分别作为正样本和负样本分别为 min ⁡ 1 ≤ l ≤ L S l , a \min_{1\le l\le L}\mathcal{S}_{l,\ a} min1≤l≤LSl, a 和 max ⁡ 1 ≤ l ≤ L S l , a \max_{1\le l\le L}\mathcal{S}_{l,\ a} max1≤l≤LSl, a。对比三元组损失公式如下其中 γ \gamma γ 是边界 Q l , a , Q l , n Q_{l,\ a},\ Q_{l,\ n} Ql, a, Ql, n 分别是来自异常视频和正常视频的得分最低的序列的特征。 p p p 是来自正常视频的片段的索引 u v u\ v u v 是来自异常视频的片段的索引。 D D D 是特征之间的成对欧几里得距离。由于正常视频仅包含正常片段 Q l , n Q_{l,\ n} Ql, n 可用作正常特征的锚点。类似地来自异常视频的得分最低的片段 Q l , a Q_{l,\ a} Ql, a 被认为是正常的因此被用作锚点的正样本而异常片段 M l , a M_{l,\ a} Ml, a 是负样本。公式化的三重态损失使 Q l , a , Q l , n Q_{l,\ a},\ Q_{l,\ n} Ql, a, Ql, n 特征更加接近同时增加了 M l a M_{l\ a} Ml a 与正常片段之间的距离。这有助于更好地区分异常视频中的正常片段和异常片段。 3.3.3. 总体损失与现有研究类似我们使用二元交叉熵损失作为预测异常分数的分类损失。分类损失为其中 y y y 表示视频级基本事实。根据 Sultani et al. (2018) 的研究我们添加了时间平滑度损失 L t s ∑ T t 1 ( s ϕ ( f θ ( f t a ) ) − s ϕ ( f θ ( f t − 1 a ) ) ) 2 \mathcal{L}_{ts}{\textstyle \sum_{T}^{t1}}\left(s_\phi\left(f_\theta\left(f_t^a\right)\right)-s_\phi\left(f_\theta\left (f_{t-1}^a\right)\right)\right)^2 Lts∑Tt1(sϕ(fθ(fta))−sϕ(fθ(ft−1a)))2 和稀疏性损失 L s p ∑ T t 1 s ϕ ( f θ ( f t a ) ) \mathcal{L}_{sp}{\textstyle \sum_{T}^{t1}}s_\phi\left(f_\theta\left(f_t^a\right)\right) Lsp∑Tt1sϕ(fθ(fta)) 作为正则化。因此总体损失可以写成其中 α 1 , α 2 , α 3 , α 4 \alpha_1,\ \alpha_2,\ \alpha_3,\ \alpha_4 α1, α2, α3, α4 用作平衡损失项的权重。 3.4. 集成网络多序列对比损失使用固定窗口大小。这将检测窗口限制为只有一个尺度。为了将异常检测纳入多个检测窗口我们建议使用用不同窗口大小训练的多个模型的集成。具体来说我们使用损失 L \mathcal{L} L 训练我们的模型以获得不同的 K K K 值其中 K ∈ [ K 1 , K 2 , K 3 ] K\in\left[K_1,\ K_2,\ K_3\right] K∈[K1, K2, K3]。将所得模型的异常分数的加权平均值作为集成的最终输出异常分数。因此最终异常分数如下其中 β ∈ [ β 1 , β 2 , β 3 ] \beta\in\left[\beta_1,\ \beta_2,\ \beta_3\right] β∈[β1, β2, β3] 是权重 S K i \mathcal{S}_{K_i} SKi 是使用窗口大小 K K K 训练的模型的输出。 4. 实验 4.1. 数据集和评估指标我们在两个公开的弱监督异常检测基准数据集 UCF-Crime (Sultani et al., 2018) 和 ShanghaiTech (Liu et al., 2018) 上对我们的模型进行了评估。 4.1.1 UCF-crime 该数据集包含来自室内和室外真实世界监控摄像头的 1900 个未修剪的视频这是一个大规模异常检测数据集 (Sultani et al., 2018)。训练集中有 810 个异常视频和 800 个仅带有视频级注释的正常视频涵盖 13 个不同的异常类别。测试集包含 290 个带有帧级注释的视频。 4.1.2 ShanghaiTech 这是一个中等规模的数据集 (Liu et al., 2018)包含 437 个视频背景场景 13 种包括 130 个异常视频和 307 个正常视频。原始数据集仅包含训练集中的正常视频。为了构建弱监督数据集Zhong et al. (2019) 选择了异常测试视频的一个子集并将其重新组织到训练集中。 4.1.3 评估指标与其他研究 (Feng et al., 2021; Sultani et al., 2018; Tian et al., 2021) 一样我们使用帧级接收器操作特性ROC的曲线下面积AUCROC值来评估我们方法的性能。此外我们利用精确召回曲线下面积AUCPR因为 AUCROC 对类别不平衡不太敏感可能会显示误导性结果。由于精确召回侧重于正样本AUCPR 为很少出现的正类提供了更合适的解决方案。鉴于测试数据集包含异常和正常视频正常视频的优异结果掩盖了异常视频的不良异常定位性能。为了验证我们方法的实际定位性能我们还使用了异常视频的 AUCROC 和 AUCPR分别称为 AUCAnoROC 和 AUCAnoPR。对于所有指标值越高意味着异常检测性能越好。 4.2. 实施细节按照 Sultani et al. (2018) 的方法我们将每个视频分成 32 个不重叠的片段即 T 32 T32 T32其中每个片段包含 16 个视频帧。然后我们从在 Kinetics-400 上预训练的 I3D (Carreira Zisserman, 2017) 的 “mix_5c” 层中提取了 2048D 特征。我们设置边距 m 200 m200 m200 和 γ 50 \gamma50 γ50。我们设置 α 1 8 × 1 0 − 4 , α 2 8 × 1 0 − 3 α 3 0.001 , α 4 0.0001 \alpha_18\times 10^{−4},\ \alpha_2 8\times 10^{−3}\ \alpha_30.001,\ \alpha_40.0001 α18×10−4, α28×10−3 α30.001, α40.0001。对于 UCF-Crime集成权重值设置为 β 1 0.2 , β 2 0.5 , β 3 0.3 \beta_10.2,\ \beta_20.5,\ \beta_30.3 β10.2, β20.5, β30.3对于 ShanghaiTech集成权重值设置为 β 1 0.2 , β 2 0.3 , β 3 0.5 \beta10.2,\ \beta_20.3,\ \beta_30.5 β10.2, β20.3, β30.5。我们还使用了序列大小 K 1 3 , K 2 5 , K 3 7 K_13,\ K_25,\ K_37 K13, K25, K37。为了训练条件扩散模型我们使用 Adam 优化器学习率为 8 × 1 0 − 5 8\times 10^{−5} 8×10−5批量大小为 12。对于 UCF-Crime 和 ShanghaiTech异常片段分类器使用 Adam 优化器进行多序列学习训练权重衰减为 0.0005学习率为 0.001。批量大小设置为 32 个视频其中 16 个正常视频和 16 个异常视频。条件扩散模型在四块 Nvidia RTX 3090 上训练剪辑分类器在一块 Nvidia RTX 3090 上训练。所有代码均使用 Pytorch 实现。 4.3. 与 SOTA 方法的比较 4.3.1 UCF-crime 数据集我们的方法在 UCF-Crime 数据集上的结果如表 1 所示。从表中可以看出我们的方法大大优于单类方法 (Sun et al., 2020; Wang Cherian, 2019)、无监督方法 (Zaheer et al., 2022) 和弱监督方法 (Feng et al., 2021; Liu, Liu, et al., 2022; Sultani et al., 2018; Zaheer et al., 2020)。具体来说使用 I3D-RGB 特征我们的方法优于 (Sultani et al., 2018) 7.83%MIST (Feng et al., 2021) 3.45%Chang et al. (2021) 提高了 1.13%Huang, Liu, et al. (2022) 提高了 1.71%Kamoona et al. (2023) 提高了 6.02%Thakare et al.2022提高了 1.64%证明了我们方法的有效性。我们的方法还比使用类似网络架构的 RTFM (Tian et al., 2021) 提高了 1.45%这表明本研究中添加的共同注意模块的好处。与使用初始自动编码器学习正态表示的 CNL (Liu, Liu, et al., 2022) 相比我们使用扩散自动编码器进行正态性学习获得了更好的性能。此外我们将我们的模型与基于 AUCPR 的现有作品进行了比较如表 2 所示。我们的方法比下一个最高方法高出 1.62%。即使使用 AUCAnoROC 进行比较我们的方法也优于现有方法。这些值表明我们的方法能够正确区分视频中的异常帧和正常帧。表 1 帧级 AUCROC 性能与 UCF-Crime 现有成果的比较。最佳结果已加下划线。表 2 帧级 AUCPR 和 AUCAnoROC 性能与 UCF-Crime 现有作品的比较。最佳结果已加下划线。 4.3.2 ShanghaiTech 数据集表 3 显示了我们的方法在 ShanghaiTech 数据集上的结果。正如预期的那样我们的方法显著超越了单类和无监督方法 (Cai et al., 2021; Le Kim, 2023; Park et al., 2020; Zaheer et al., 2022)。此外我们的方法还超越了几种重要的弱监督 VAD 方法。使用 I3D-RGB 特征我们的方法能够超越 (Sultani et al., 2018) 11.41%GCN (Zhong et al., 2019) 12.3%CLAWS (Zaheer et al., 2020) 7.07% 和 MIST (Feng et al., 2021) 1.91%。我们的方法还超过了最近的 MSL (Li et al., 2022) 0.66% 和 NTCN-ML (Shao et al., 2023) 1.44%。这证明了我们的方法在多个数据集上的有效性取得了与大多数其他重要作品相当或超越的结果。表 3 帧级 AUCROC 性能与 ShanghaiTech 现有成果的比较。最佳结果已加下划线。 4.4. 类别异常可辨别性为了验证我们的方法在 UCF-Crime 数据集中检测不同异常类别的能力我们绘制了每个异常类别的 AUCROC 性能条形图图 5。我们将结果与两项重要著作进行了比较Sultani et al. (2018) 和 RTFM (Tian et al., 2021)。我们的方法在 6 个类别中显示出优于 (Sultani et al., 2018) 和 Tian et al. (2021) 的结果尤其是在纵火、袭击、打架、抢劫和偷窃类别中。我们的模型在 8 个类别中优于 RTFM在虐待、纵火、袭击、爆炸、打架和抢劫类别中分别增长了 10%、7%、18%、4%、9% 和 4%。与 Sultani et al. (2018)我们的方法在 8 个类别中表现出色在纵火、袭击、商店扒窃、抢劫、斗殴和入室盗窃类别中分别提高了 11%、34%、19%、10%、8% 和 4%。图 5. UCF-Crime 上的类别 AUCROC 表现。 4.5. 定性分析我们在图 6 和图 7 中可视化了异常得分图并将我们的方法的结果与 Tian et al. (2021) 和 Chen et al. (2023) 的结果进行比较以进一步评估我们方法的有效性。图 6 显示了来自上海科技数据集的五个异常和一个正常视频的预测异常得分以及基本事实。图 7 显示了来自 UCF-Crime 的五个不同异常类别的视频和一个正常视频的预测异常得分和基本事实。 Y Y Y 轴表示异常得分 X X X 轴表示帧数。红色区域表示异常帧的基本事实。研究 UCF-Crime 的图表我们可以看到图 7(d) 中的长持续时间异常和图 7(a) 中的短持续时间异常都被准确检测到。这展示了我们的 GLFE 模型的优势该模型可以提取长期和短期特征。与 Tian et al. (2021) 相比由于 Co-Attention 融合模块GLFE 模型可以学习全局特征和局部特征之间的有效关系从而帮助我们的方法检测整个长异常序列的异常这可以从图 7(d) 中看到。我们的方法还能够在单个视频中检测多个异常事件。从图 7(b) 和图 7© 可以看出我们的方法在这方面的表现优于 (Tian et al., 2021)。这可以归因于使用正态性预训练和三重对比损失。前者为模型提供了关于正常特征的先验知识而后者有助于将正常帧与异常视频中的异常帧分开。此外我们可以从图中看到Chen et al. (2023) 在大多数情况下都很难识别异常帧。它倾向于将异常视频中的大多数帧归类为异常。然而他们的方法仍然会得到较高的 AUC 分数因为数据集中的正常视频平均比异常视频大得多因此正常视频中正确预测的帧会掩盖异常视频中的误报。 ShanghaiTech 数据集的图表显示了类似的趋势。长持续时间图 6(b)和短持续时间图 6(d)异常均被准确检测进一步证明了我们模型的有效性。对于来自两个数据集的正常视频图 6(f)、图 7(f)我们的模型产生的异常分数接近 0表明我们的方法可以有效地学习异常帧和正常帧之间的区别。我们的模型在错误分类方面的有限性能也可以在图 6(a)、6(d)、6(e)、7©、7(d) 和 7(e) 中看到。这些视频中存在错误检测的例子。图 6. 我们的方法对 ShanghaiTech 测试视频的异常分数曲线。红色区域表示真实异常事件。每个图显示数据集中给定视频编号的每个视频的帧异常分数。(a) 至 (e) 为异常视频(f) 为不包含异常事件的正常视频。图 7. 我们的方法对 UCF-Crime 测试视频的异常分数曲线。红色区域表示真实异常事件。每个图显示数据集中给定视频编号的每个视频的逐帧异常分数。(a) 至 (e) 分别是逮捕、入室盗窃、爆炸、抢劫和道路事故的视频。(f) 显示没有异常事件的视频。 4.6. 消融研究我们进行了消融研究以验证我们方法的显著组成部分的有效性。首先我们在表 4 中展示了集成中使用的模型对不同片段大小 K K K值的单独检测性能。对于 UCF-Crime使用片段大小 K 5 K5 K5 训练的模型实现了 84.88% 的最高准确率。在 ShanghaiTech 数据集上使用 K 7 K7 K7 训练的模型实现了 96.19% 的最高 AUCROC。我们将全局块中的深度和头部数量设置为 1用于所有研究。通过实验我们发现增加深度和头部会导致模型过度拟合因此必须严格根据帧所属视频的标签来学习帧的类别。这会导致异常视频中的大多数帧被归类为异常从而降低模型的检测性能。表 4 不同序列长度 $L$ 的检测性能以 AUCROC(%) 衡量。最佳结果以粗体表示。在消融研究的第二部分中我们使用 I3D 特征验证了 UCF-Crime 数据集上正态性预训练、协同注意模块和三重对比损失的有效性。我们在表 5 中展示了不同片段大小的结果以及最终的集成得分。基线模型用局部和全局块特征的位置级联的一维卷积取代了图 3 中的协同注意模块。此外基线模型未使用扩散自动编码器设置进行预训练以学习正常特征。最后不使用对比三重态损失 L t r i p \mathcal{L}_{trip} Ltrip 来训练基线模型而只使用公式 (14) 中的损失 L c l s , L t s \mathcal{L}_{cls},\ \mathcal{L}_{ts} Lcls, Lts 和 L m s c \mathcal{L}_{msc} Lmsc。得到的基线在 UCF-Crime 上只能达到 82.55%。添加三重态损失可将 AUC 性能提高到 83.86%而执行正态性预训练可将性能提高到 83.40%。使用 Co-Attention 模块后AUC 性能提升到 84.00%。三重态损失和正态性预训练有助于减少误报而 Co-Attention 有助于提取更好的全局和局部特征。然而与在模型中添加更多头和层不同这会增加模型的复杂性但会通过过度拟合降低其性能而协同注意模块则允许模型自适应地学习全局和局部特征之间的重要关系。当同时添加三重态损失和正态性预训练时结果增加到 84.04%。当在基线中同时添加三重态损失和协同注意模块时AUC 增加到 85.04%。当协同注意与正态性预训练相结合时AUC 性能提高了 2.53%达到 85.08%。这给出了修改如何相互结合以进一步提高 AUCROC 性能的视图。当使用所有三个修改时可以达到 86.12% 的最佳准确率。表 5 在 UCF-Crime 数据集上使用不同 $K$ 值对我们方法的消融研究。缩写的含义如下TL三重态损失NPT正态性预训练CA共同注意。此外为了证明我们的方法在检测异常方面的有效性我们还检查了不同组件的 AUCAnoROC 和 AUCAnoPR 结果。表 6 中的结果证明了每个组件在提高检测准确率方面的贡献。可以观察到三重态损失对更准确地检测异常视频中的异常尤其有重大贡献。通过强制低得分片段特征与正常视频片段的特征相似我们能够进一步区分异常视频中的两类帧。可以进一步验证从表 6 的第 3、第 5、第 7 行增加正态性预训练有助于提高模型的检测性能。Co-Attention 模块的有效性通过更高的 AUCAnoPR 值来证明这表示检测过程中的准确率更高。Co-Attention 模块增加了模型复杂度这可能会导致模型在单独使用时“BaselineCA”略微过拟合。这可能导致模型将异常视频中的大多数帧预测为异常。但是由于大多数帧在正视频中被归类为异常因此这种情况下召回率很高进而导致 AUCROC 值较高。当使用 K 3 K3 K3 的小片段大小进行训练时这个问题会更加严重因为它无法正确检测较长的异常事件。在这方面“BaselineNPTCA” 和 “BaselineTLCA” 的表现优于 “BaselineCA”因为它们减少了大量误报。但这可能会导致召回率降低从而导致模型的 AUC 分数略低。在我们的模型中使用这三种修改我们能够在召回率和误报之间取得更好的平衡。表 6 UCF-Crime数据集中不同组件对异常视频检测性能的影响。缩写含义如下TLTriplet LossNPTNormality Pre-trainingCACo-Attention。 5. 结论在这项工作中我们提出了一种利用数据集中大量正常帧的弱监督视频异常检测新方法。考虑到 MIL 忽略大量正常帧的缺点我们设计了一个全局-局部特征编码器首先在条件去噪扩散设置中训练以学习正常信息然后在使用正常和异常视频的多序列学习设置中训练该编码器。我们进一步建议添加三重对比损失以更好地区分异常视频中的正常和异常片段。在两个公共基准数据集上的实验表明我们的方法取得了超过或可与现有最先进方法相媲美的良好性能结果。虽然我们的方法在 WS-VAD 任务上显示出良好的结果但我们的工作仍然存在一些缺点。首先我们的模型遵循两步训练过程。这增加了训练模型所需的时间。特别是训练 DDPM 模型既耗费资源又耗费时间。然而在推理时我们只需要 GLFE 模型它不占用大量资源。其次我们的方法与 WS-VAD 中的大多数其他工作一样依赖于预先训练的动作识别模型提取的特征这可能无法很好地应用于异常检测任务。在未来的工作中我们计划直接从视频中提取与任务相关的特征。此外为了减少训练时间我们将探索更多内存效率更高的扩散模型。参考文献 Cai, R., Zhang, H., Liu, W., Gao, S., Hao, Z. (2021). Appearance-motion memory consistency network for video anomaly detection. In Proceedings of the AAAI conference on artificial intelligence: vol. 35, (2), (pp. 938–946).Carreira, J., Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6299–6308).Chang, S., Li, Y., Shen, S., Feng, J., Zhou, Z. (2021). Contrastive attention for video anomaly detection. IEEE Transactions on Multimedia, 24, 4067–4076.Chang, Y., Tu, Z., Xie, W., Luo, B., Zhang, S., Sui, H., et al. (2022). Video anomaly detection with spatio-temporal dissociation. Pattern Recognition, 122, Article 108213.Chang, Y., Tu, Z., Xie, W., Yuan, J. (2020). Clustering driven deep autoencoder for video anomaly detection. In Computer vision–ECCV 2020: 16th European conference, glasgow, UK, August 23–28, 2020, proceedings, part XV 16 (pp. 329–345). Springer.Chen, Y., Liu, Z., Zhang, B., Fok, W., Qi, X., Wu, Y.-C. (2023). Mgfn: Magnitude- contrastive glance-and-focus network for weakly-supervised video anomaly detec- tion. In Proceedings of the AAAI conference on artificial intelligence: vol. 37, (1), (pp. 387–395).Chen, D., Yue, L., Chang, X., Xu, M., Jia, T. (2021). NM-GAN: Noise-modulated generative adversarial network for video anomaly detection. Pattern Recognition, 116, Article 107969.Dhariwal, P., Nichol, A. (2021). Diffusion models beat gans on image synthesis. Advances in Neural Information Processing Systems, 34, 8780–8794.Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.Feng, J.-C., Hong, F.-T., Zheng, W.-S. (2021). Mist: Multiple instance self-training framework for video anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14009–14018).Gao, Z., Zhang, H., Dong, S., Sun, S., Wang, X., Yang, G., et al. (2020). Salient object detection in the distributed cloud-edge intelligent network. IEEE Network, 34(2), 216–224.Gautam, A., Rana, D., Aggarwal, S., Bhosle, S., Sharma, H. (2023). Deep learning approach to automatically recognise license number plates. Multimedia Tools and Applications, 82(20), 31487–31504.Gong, D., Liu, L., Le, V., Saha, B., Mansour, M. R., Venkatesh, S., et al. (2019). Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 1705–1714).Gong, Y., Wang, C., Dai, X., Yu, S., Xiang, L., Wu, J. (2022). Multi-scale continuity- aware refinement network for weakly supervised video anomaly detection. In 2022 IEEE international conference on multimedia and expo (pp. 1–6). IEEE.Gowda, R., Pawar, D. (2023). Deep learning-based forgery identification and localization in videos. Signal, Image and Video Processing, 17(5), 2185–2192.Grosz, S. A., Jain, A. K. (2023). Latent fingerprint recognition: Fusion of local and global embeddings. IEEE Transactions on Information Forensics and Security.Hao, Y., Li, J., Wang, N., Wang, X., Gao, X. (2022). Spatiotemporal consistency- enhanced network for video anomaly detection. Pattern Recognition, 121, Article 108232.He, C., Li, K., Zhang, Y., Tang, L., Zhang, Y., Guo, Z., et al. (2023). Camouflaged object detection with feature decomposition and edge reconstruction. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 22046–22055).He, P., Zhang, F., Li, G., Li, H. (2024). Adversarial and focused training of abnormal videos for weakly-supervised anomaly detection. Pattern Recognition, 147, Article 110119.Ho, J., Jain, A., Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840–6851.Huang, S.-C., Hoang, Q.-V., Le, T.-H. (2022). SFA-net: A selective features absorption network for object detection in rainy weather conditions. IEEE Transactions on Neural Networks and Learning Systems.Huang, C., Liu, C., Wen, J., Wu, L., Xu, Y., Jiang, Q., et al. (2022). Weakly supervised video anomaly detection via self-guided temporal discriminative transformer. IEEE Transactions on Cybernetics.Kamoona, A. M., Gostar, A. K., Bab-Hadiashar, A., Hoseinnezhad, R. (2023). Multiple instance-based video anomaly detection using deep temporal encoding–decoding. Expert Systems with Applications, 214, Article 119079.Le, V.-T., Kim, Y.-G. (2023). Attention-based residual autoencoder for video anomaly detection. Applied Intelligence, 53(3), 3240–3254.Lee, Y. G., Na, G., Byun, J. (2022). Detection of double-compressed videos using descriptors of video encoders. Sensors, 22(23), 9291.Li, N., Chang, F., Liu, C. (2020). Spatial-temporal cascade autoencoder for video anomaly detection in crowded scenes. IEEE Transactions on Multimedia, 23, 203–215. Li, S., Liu, F., Jiao, L. (2022). Self-training multi-sequence learning with transformer for weakly supervised video anomaly detection. In Proceedings of the AAAI, Virtual: vol. 24.Liu, D., Li, Q., Dinh, A.-D., Jiang, T., Shah, M., Xu, C. (2023). Diffusion action segmentation. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 10139–10149).Liu, Y., Liu, J., Zhao, M., Li, S., Song, L. (2022). Collaborative normality learning framework for weakly supervised video anomaly detection. IEEE Transactions on Circuits and Systems II: Express Briefs, 69(5), 2508–2512.Liu, W., Luo, W., Lian, D., Gao, S. (2018). Future frame prediction for anomaly detection–a new baseline. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6536–6545).Liu, Z., Nie, Y., Long, C., Zhang, Q., Li, G. (2021). A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 13588–13597).Liu, W., Ren, G., Yu, R., Guo, S., Zhu, J., Zhang, L. (2022). Image-adaptive YOLO for object detection in adverse weather conditions. In Proceedings of the AAAI conference on artificial intelligence: vol. 36, (2), (pp. 1792–1800).Luo, Z., Chen, D., Zhang, Y., Huang, Y., Wang, L., Shen, Y., et al. (2023). Videofusion: Decomposed diffusion models for high-quality video generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10209–10218).Lv, H., Zhou, C., Cui, Z., Xu, C., Li, Y., Yang, J. (2021). Localizing anomalies from weakly-labeled videos. IEEE Transactions on Image Processing, 30, 4505–4515.Ma, H., Zhang, L. (2022). Attention-based framework for weakly supervised video anomaly detection. The Journal of Supercomputing, 78(6), 8409–8429.Mao, M., Zhang, R., Zheng, H., Ma, T., Peng, Y., Ding, E., et al. (2021). Dual-stream network for visual recognition. Advances in Neural Information Processing Systems, 34, 25346–25358.Medioni, G., Cohen, I., Brémond, F., Hongeng, S., Nevatia, R. (2001). Event detection and analysis from video streams. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(8), 873–889.Najafzadeh, N., Kashiani, H., Saadabadi, M. S. E., Talemi, N. A., Malakshan, S. R., Nasrabadi, N. M. (2023). Face image quality vector assessment for biometrics applications. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 511–520).Nawaratne, R., Alahakoon, D., De Silva, D., Yu, X. (2019). Spatiotemporal anomaly detection using deep learning for real-time video surveillance. IEEE Transactions on Industrial Informatics, 16(1), 393–402.Park, S., Kim, H., Kim, M., Kim, D., Sohn, K. (2023). Normality guided multiple instance learning for weakly supervised video anomaly detection. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 2665–2674).Park, H., Noh, J., Ham, B. (2020). Learning memory-guided normality for anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14372–14381).Pham, T.-A. (2023). Effective deep neural networks for license plate detection and recognition. The Visual Computer, 39(3), 927–941.Preechakul, K., Chatthee, N., Wizadwongsa, S., Suwajanakorn, S. (2022). Diffusion autoencoders: Toward a meaningful and decodable representation. In Proceed- ings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10619–10629).Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684–10695).Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., et al. (2022). Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35, 36479–36494.Schölkopf, B., Platt, J. C., Shawe-Taylor, J., Smola, A. J., Williamson, R. C. (2001). Estimating the support of a high-dimensional distribution. Neural Computation, 13(7), 1443–1471.Schölkopf, B., Williamson, R. C., Smola, A., Shawe-Taylor, J., Platt, J. (1999). Support vector method for novelty detection. In Advances in neural information processing systems: vol. 12.Scholkopf, B., Williamson, R., Smola, A., Shawe-Taylor, J., Platt, J., et al. (2000). Support vector method for novelty detection. In Advances in neural information processing systems: vol. 12, (3), (pp. 582–588). MIT Press Cambridege, Mass, USA.Shao, W., Xiao, R., Rajapaksha, P., Wang, M., Crespi, N., Luo, Z., et al. (2023). Video anomaly detection with NTCN-ML: A novel TCN for multi-instance learning. Pattern Recognition, Article 109765.Song, J., Meng, C., Ermon, S. (2020). Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502.Su, X., Song, J., Meng, C., Ermon, S. (2023). Dual diffusion implicit bridges for image-to-image translation. In The eleventh international conference on learning representations. URL https://openreview.net/forum?id5HLoTvVGDe.Sultani, W., Chen, C., Shah, M. (2018). Real-world anomaly detection in surveillance videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6479–6488).Sun, C., Jia, Y., Hu, Y., Wu, Y. (2020). Scene-aware context reasoning for unsupervised abnormal event detection in videos. In Proceedings of the 28th ACM international conference on multimedia (pp. 184–192).Thakare, K. V., Sharma, N., Dogra, D. P., Choi, H., Kim, I.-J. (2022). A multi-stream deep neural network with late fuzzy fusion for real-world anomaly detection. Expert Systems with Applications, 201, Article 117030.Tian, Y., Pang, G., Chen, Y., Singh, R., Verjans, J. W., Carneiro, G. (2021). Weakly- supervised video anomaly detection with robust temporal feature magnitude learning. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 4975–4986).Ullah, W., Ullah, F. U. M., Khan, Z. A., Baik, S. W. (2023). Sequential attention mechanism for weakly supervised video anomaly detection. Expert Systems with Applications, Article 120599.Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need. In Advances in neural information processing systems: vol. 30.Wang, J., Cherian, A. (2019). Gods: Generalized one-class discriminative subspaces for anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 8201–8211).Wolleb, J., Bieder, F., Sandkühler, R., Cattin, P. C. (2022). Diffusion models for medical anomaly detection. In International conference on medical image computing and computer-assisted intervention (pp. 35–45). Springer.Wu, P., Liu, J. (2021). Learning causal temporal relation and feature discrimination for anomaly detection. IEEE Transactions on Image Processing, 30, 3513–3527.Wu, P., Liu, J., Shi, Y., Sun, Y., Shao, F., Wu, Z., et al. (2020). Not only look, but also listen: Learning multimodal violence detection under weak supervision. In European conference on computer vision (pp. 322–339). Springer.Wu, L., Zhang, C., Zou, Y. (2023). SpatioTemporal focus for skeleton-based action recognition. Pattern Recognition, 136, Article 109231.Yan, C., Zhang, S., Liu, Y., Pang, G., Wang, W. (2023). Feature prediction diffusion model for video anomaly detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 5527–5537).Yi, S., Fan, Z., Wu, D. (2022). Batch feature standardization network with triplet loss for weakly-supervised video anomaly detection. Image and Vision Computing, 120, Article 104397.Yu, J., Lee, Y., Yow, K. C., Jeon, M., Pedrycz, W. (2021). Abnormal event detection and localization via adversarial event prediction. IEEE Transactions on Neural Networks and Learning Systems, 33(8), 3572–3586.Zaheer, M. Z., Mahmood, A., Astrid, M., Lee, S.-I. (2020). Claws: Clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection. In European conference on computer vision (pp. 358–376). Springer.Zaheer, M. Z., Mahmood, A., Astrid, M., Lee, S.-I. (2023). Clustering aided weakly supervised training to detect anomalous events in surveillance videos. IEEE Transactions on Neural Networks and Learning Systems.Zaheer, M. Z., Mahmood, A., Khan, M. H., Segu, M., Yu, F., Lee, S.-I. (2022). Generative cooperative learning for unsupervised video anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 14744–14754).Zeng, X., Jiang, Y., Ding, W., Li, H., Hao, Y., Qiu, Z. (2021). A hierarchical spatio- temporal graph convolutional neural network for anomaly detection in videos. IEEE Transactions on Circuits and Systems for Video Technology.Zhang, S., Gong, M., Xie, Y., Qin, A. K., Li, H., Gao, Y., et al. (2022). Influence-aware attention networks for anomaly detection in surveillance videos. IEEE Transactions on Circuits and Systems for Video Technology, 32(8), 5427–5437.Zhang, D., Huang, C., Liu, C., Xu, Y. (2022). Weakly supervised video anomaly detection via transformer-enabled temporal relation learning. IEEE Signal Processing Letters.Zhong, J.-X., Li, N., Kong, W., Liu, S., Li, T. H., Li, G. (2019). Graph convolutional label noise cleaner: Train a plug-and-play action classifier for anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1237–1246).Zhu, Y., Newsam, S. (2019). Motion-aware feature for improved video anomaly detection… In Proceedings of british machine vision conference (pp. 1–12).

查看全文

http://www.w-s-a.com/news/433747/