旅游网站建设备案,艺友网站建设,网络工程师招聘,静态网站什么意思Spectral–Spatial Feature Partitioned Extraction Based on CNN for Multispectral Image Compression
#xff08;基于CNN的光谱-空间特征分割提取多光谱图像压缩#xff09;
近年来#xff0c;多光谱成像技术的迅速发展引起了各领域的高度重视#xff0c;这就不可避免…Spectral–Spatial Feature Partitioned Extraction Based on CNN for Multispectral Image Compression
基于CNN的光谱-空间特征分割提取多光谱图像压缩
近年来多光谱成像技术的迅速发展引起了各领域的高度重视这就不可避免地涉及到图像的传输和存储问题。针对这一问题提出了一种基于光谱空间特征分割提取的端到端多光谱图像压缩方法。整个多光谱图像压缩框架是基于卷积神经网络CNN其创新之处在于特征提取模块被分为两个并行部分一个是光谱部分另一个是空间部分。首先利用光谱特征提取模块独立提取光谱特征并对空间特征提取模块进行操作以获得分离的空间特征。在特征提取之后光谱和空间特征被逐元素融合随后进行下采样这可以减小特征图的大小。然后通过量化和无损熵编码将数据转换为比特流。为了使数据更加紧凑向网络添加了率失真优化器。解码器是编码器的相对逆过程。为了比较所提出的方法进行了测试沿着JPEG 20003D-SPIHT和ResConv另一个基于CNN的算法从Landsat-8和WorldView-3卫星的数据集。实验结果表明在相同码率下该算法的性能优于其他方法。
Introduction
通过捕获几个连续窄光谱带的数字图像传感器可以生成包含丰富光谱和空间信息的三维多光谱图像。这些丰富的信息在军事侦察、目标监视、农作物状况评估、地表资源调查、环境研究、海洋应用等方面有着广泛的应用。然而随着多光谱成像技术的快速发展多光谱数据的光谱空间分辨率越来越高导致其数据量迅速增长。庞大的数据量不利于图像的传输、存储和应用阻碍了相关技术的发展。因此有必要找到一种有效的多光谱图像压缩方法在使用前对图像进行处理。 多光谱图像压缩方法的研究一直受到广泛关注。经过几十年的不懈努力针对不同应用需求开发出了各种多光谱图像压缩算法可以概括如下基于预测编码的框架、基于矢量量化编码的框架、基于变换编码的框架。预测编码主要应用于无损压缩。它的基本原理是利用像素之间的相关性来预测未知数据的基础上然后对真实的值和预测值之间的残差进行编码。在[6]中Slyz等人提出了一种基于块的带间无损多光谱图像压缩方法将每幅图像分割成块并利用相邻带中对应的块预测当前块。对于矢量量化编码将若干标量数据集形成一个矢量然后在矢量空间中将数据作为一个整体量化以便在不损失太多信息的情况下进行压缩。由于矢量量化编码的性能与码本密切相关为了提高时间效率Qian在[7]中提出了一种快速码本搜索方法。在广义Lloyd算法GLA的全搜索过程中如果到分区的距离比前一次迭代的更好则不需要搜索来找到最小距离分区。变换编码是多光谱图像压缩中的一种重要方法在有损压缩中有着广泛的应用。该算法通过将数据转换为变换域表示来降低像素之间的相关性从而使信息集中从而进行量化和编码。Karhunen-Loève变换KLT、离散余弦变换DCT和离散小波变换都是常用的变换编码算法。随着我们对多光谱图像的深入了解开发了越来越多的改进算法如3D-SPECK、3D-SPIHT等。 上述传统的压缩方法都是有效的取得了很好的效果但也存在着不足。例如实现预测编码算法简单但是压缩比相对较低。矢量量化编码算法虽然可以达到较为理想的效果但由于其计算复杂度不利于实现。为了克服传统压缩方法的不足同时又保证压缩性能近年来许多基于深度学习的多光谱图像压缩算法得到了迅速的发展。其中卷积神经网络CNN是近年来图像压缩的主要算法之一。CNN的历史始于LeNet风格的模型该模型包括用于特征提取的卷积层和用于下采样的最大池化层的简单堆栈。为了提取更多不同尺度的特征2012年提出的AlexNet遵循了这一思想并通过在每两个最大池化层之间添加几个卷积层进行了改进。为了获得更好的性能需要增加网络的深度。于是VGG、GoogLENet 、ResNet等优秀的网络架构开始陆续涌现。这些网络框架都是图像压缩技术发展的里程碑在以往的ILSVRC等竞赛中都取得了很好的成绩。受这些杰出的网络框架的启发许多基于CNN的压缩方法已经出现并显示出适用于可见图像。在[18]中Ballé提出了一种基于CNN的端到端优化图像压缩方法具有广义分裂归一化GDN联合非线性通过灵活使用线性卷积和非线性变换所提出的网络实现了与JPEG2000相当的性能。为了进一步提高重建图像的质量Jiang等人将CNN添加到编码器和解码器以进行联合训练。编码器中的CNN产生用于编码的紧凑呈现并且解码器中的另一CNN是以高质量恢复解码图像利用其可以显著减少块效应。已知多光谱图像是三维数据其中两个维度是空间的一个维度是光谱的。由于RGB图像也具有三个波段因此可以将其视为特殊的多光谱数据。因此许多用于可见光图像的压缩方法也可以应用于多光谱图像。在[20]中提出了具有优化残差单元的多光谱图像的端到端压缩框架。它也基于CNN并调整了网络中采用的ResNet的默认架构以更好地适应多光谱图像。实验证明该算法的有效性和PSNR比JPEG2000提高了约2 dB。尽管如此上述方法仍然未能集中在多光谱图像的光谱之间的强相关性因为这对RGB图像不太重要。然而对于多光谱图像压缩忽略光谱相关性会导致压缩后的信息丢失。因此在本文中我们提出了一种新的多光谱图像压缩方法的基础上的光谱空间特征的分割提取。 该网络是基于CNN的端到端框架由编码器和解码器组成。在编码器中有两个部分分别用于光谱特征提取和空间特征提取。第一部分采用连续光谱特征提取模块独立提取光谱特征。这一部分不涉及空间信息的融合。第二部分是用于空间特征提取其中包含多个残差块。我们使用组卷积来分离每个通道以便只有空间特征可以提取而不混合其中的光谱信息。然后所有特征被融合在一起然后采用下采样来减小特征图的大小。此外为了使数据更紧凑在网络中使用了速率失真优化器。在获得中间特征数据后进行量化和无损熵编码以获得压缩的二进制比特流。在解码器中比特流首先经过熵解码和逆量化然后上采样有助于恢复图像大小。最后通过相应的反卷积操作获得光谱和空间特征并利用联合特征重建图像。实验结果表明该网络优于JPEG 2000和3D-SPIHT。
Proposed Method
Spectral Feature Extraction Module
二维卷积技术已被证明具有很大的应用前景并成功地应用于图像视觉和处理的许多方面如目标检测、图像分类和图像压缩。然而由于多光谱图像是三维的更加复杂丰富的光谱信息更加重要因此在采用二维卷积处理多光谱图像时不可避免地会遇到信息丢失的问题。虽然将深度学习应用于多光谱图像压缩已有很多先例并取得了很好的性能超过了JPEG和JPEG2000等一些传统压缩方法但在特征提取过程中由于卷积核是二维的无法有效去除第三维上的光谱冗余抑制了网络的性能。 为了解决这个问题我们提出了分别提取光谱或空间特征的想法。其中提取光谱特征的灵感来源于。参考文献[21]使用三维核进行卷积运算这可以保持多光谱图像数据中光谱特征的完整性。为了避免数据量过大在谱维上采用1 × 1 × n卷积核称为一维谱卷积独立提取光谱特征。图1显示了2D卷积和1D光谱卷积之间的差异。 如图1a所示图像通过2D卷积进行卷积其内核是二维的通常后跟激活函数例如校正线性单元ReLU参数校正线性单元PReLU等。该操作可以表示如下 类似地考虑到光谱的维度在3D图像上操作的1D光谱卷积可以公式化如下 考虑到激活函数我们采用ReLU作为我们的首选因为当使用ReLU时反向传播中的梯度通常是恒定的这缓解了深度网络训练中梯度消失的问题并有助于网络收敛。此外使用ReLU时的计算成本比其他函数例如Sigmiod。此外ReLU可以使一些神经元的输出为零这保证了网络的稀疏性从而缓解过拟合问题。ReLU函数可以公式化如下 综上所述当对三维图像进行2D卷积运算时输出总是二维的这可能导致大量的光谱信息丢失。因此我们采用一维光谱卷积保留更多的多光谱图像的特征数据。
Spatial Feature Extraction Module
为了确保空间信息不与光谱特征相混合我们使用群卷积代替空间维度上的普通二维卷积。群卷积最早出现在AlexNet是为了解决当时硬件资源有限的问题。特征图被分发到多个GPU进行同步处理最后连接在一起。图2显示了正常卷积和群卷积之间的区别。 如图2a所示输入数据的大小为C×H×W分别表示特征图的通道数、宽度和高度。卷积核的大小为k×k核的数目为N。这一点输出特征图的大小为N×H’×W’。N个卷积核的参数数为 组卷积顾名思义将输入的特征图分成若干组然后分别卷积。假设输入的大小仍然是C×H×W并且输出特征图的数量是N。如果将输入分成G组则每组中的输入特征图的数量为C/G每组中的输出特征图的数量为N/G卷积核的大小为k×k即卷积核的数量保持不变每组中的核的数量为N/G。由于特征图仅由相同组的卷积核卷积所以参数的总数可以计算为 通过比较两个方程5和6可以很容易地知道群卷积可以大大减少参数的数量准确地说它可以减少到1/G。此外根据[14]由于组卷积可以增加滤波器之间的对角相关性因此滤波器关系变得稀疏和不相关。 图3示出了相邻层的滤波器之间的相关矩阵[23]高度相关的滤波器更亮而较低相关的滤波器更暗。滤波器组即组卷积的作用是利用块对角稀疏性来学习关于信道维度的信息。低相关滤波器不需要学习也就是说它们不需要给定参数。此外如图3所示当使用组卷积时可以以更结构化的方式训练高度相关的滤波器。因此利用结构化稀疏性群卷积不仅可以减少参数的数量而且可以更准确地学习以制作更高效的网络。
Framework ofthe Proposed Network
所提出的压缩网络的整个框架在图4中示出。该方法首先将多光谱图像送入前向网络经过特征提取后再经过量化和熵编码器压缩并转换为码流。解码器的结构与编码器的结构是对称的。因此对于解码比特流依次经过熵解码、逆量化和后向网络以恢复图像。
The Forward Network and the Backward Network
前向和后向网络的架构如图5所示频谱块和空间块如图6所示。 图5示出了我们的网络的详细过程。首先将输入的多光谱图像同时分别送入光谱特征提取网络和空间特征提取网络光谱特征提取网络和空间特征提取网络由相应的功能模块组成。在频谱部分中存在若干频谱块图6a其基于残差块结构。我们将卷积层替换为调整后的1D谱卷积以满足我们的期望内核的大小为1×1×3。同样地空间部分由具有类似结构的若干空间块组成如图6 b所示并且使用组卷积使得每个通道将不会彼此交互。具体地当输入多光谱图像具有七个或八个波段时GROUP被设置为7或8。此外为了增强特征的学习能力增加了一些卷积层其核大小为3 × 3。提取后将两部分特征融合在一起然后进行下采样以减小特征图的大小。在前向网络的末端sigmoid函数起着限制中间输出值的作用此外与ReLU类似它引入了非线性因素使网络对模型更具表达力。 与前向网络对称后向网络由上采样层、一些卷积层和分区提取部分形成。特别地使用PixelShuffle实现上采样其可以使用子像素操作将低分辨率图像变成高分辨率图像。
Quantization and Entropy Coding
在前向网络之后中间数据首先由量化器量化成一系列离散整数。由于下降梯度用于后向传播以在训练网络时更新参数因此梯度需要向下传递。然而舍入函数是不可微的[25]这将阻碍网络的优化。因此我们放松了函数它被计算为 其中Q是量化级别Xs ∈01是Sigmoid激活之后的中间数据round[·]是舍入函数并且XQ是量化数据。该函数对前向网络中的数据进行舍入并在反向传播期间跳过以将梯度直接传递到前一层。 然后我们采用ZPAQ作为无损熵编码标准并选择“方法-6”作为压缩模式以便进一步处理量化的XQ并生成二进制比特流。在解码器中比特流经过熵解码器和去量化数据XQ/ 2 Q 2^{Q} 2Q − 1)最终被馈送到反向网络以恢复图像。
Rate-Distortion Optimizer
评价一种压缩方法有两个标准一个是比特率另一个是恢复图像的质量。为了提高网络的性能在这两个标准之间取得平衡至关重要。因此引入了率失真优化 其中L是在训练期间应当最小化的损失函数LD指示失真损失LR表示速率损失其可以由惩罚λ控制。当我们使用MSE来测量恢复图像的失真损失时LD可以表示如下 其中N表示批量大小I表示原始多光谱图像并且I是恢复图像H、W和C分别是图像的高度、宽度和光谱带号。 为了估计速率损失我们采用了一个重要的网络以取代熵计算的代码长度的连续近似。重要性网络用于生成从输入图像学习的重要性图PX。目的是根据图像内容的重要性来分配比特率将更多比特分配给复杂区域并且将更少比特分配给平滑区域。重要网络简单地由四层组成两个1 × 1卷积层和一个由两个3 × 3卷积层组成的残差块如图7所示。 重要性网络中使用的激活函数是Mish [27]它已被证明比ReLU更平滑并获得更好的结果。由于增加的补偿而导致的时间成本和有限的硬件条件仅在重要性网络中而不是整个网络中采用Mish如下所示