当前位置：首页 > news >正文

上海网站推广公司排名最牛html5网站建设

news 2025/12/27 1:58:53

上海网站推广公司排名,最牛html5网站建设,com域名便宜,dede网站搬家空间转移的方法本文讨论了用于对包括螺丝、螺母、钥匙和硬币在内的小型金属物体进行分类的两种特征提取方法的效率#xff1a;定向梯度直方图 (HOG) 和局部二进制模式 (LBP)。首先提取标记图像的所需特征并以特征矩阵的形式保存。使用三种不同的分类方法#xff08;非参数 K 最近邻算法、支… 本文讨论了用于对包括螺丝、螺母、钥匙和硬币在内的小型金属物体进行分类的两种特征提取方法的效率定向梯度直方图 (HOG) 和局部二进制模式 (LBP)。首先提取标记图像的所需特征并以特征矩阵的形式保存。使用三种不同的分类方法非参数 K 最近邻算法、支持向量机和朴素贝叶斯方法将图像分为四个不同的类别。然后通过检查生成的混淆矩阵比较这四个类的 HOG 和 LBP 方法的性能。这两种方法的有效性也与基于深度学习的“You Only Look Once”和更快的基于区域的卷积神经网络方法进行了比较。本文采集的图像集包括800张带标签的训练图像和180张测试图像。结果表明使用 HOG 比使用 LBP 更有效。此外HOG 和 LBP 的组合提供了比单独使用任何一个更好的结果。介绍目标分类是图像处理和机器视觉领域中最重要的问题之一 [ 1 , 2 ]。一般来说分类方法分为参数方法和非参数方法。参数化方法寻求提取参数来描述基于训练数据分析的特定模型。创建所需模型后可以对新样本进行分类 [ 3、4 ]。支持向量机 (SVM)和朴素贝叶斯 (NB)分类器是最重要的参数化方法[ 5、6、7、8、9]. 在参数方法中对所有输入数据考虑单个模型。尽管将分类问题简化为寻找几个有限参数似乎是合乎逻辑的但这种假设可能不正确可能导致对输出的误诊。非参数算法涉及基于合适的距离函数找到接近或相似的样本然后进行插值以找到正确的输出。k 最近邻 ( KNN )算法是最流行的非参数方法之一[ 10、11、12]. 在非参数方法中不需要在训练阶段计算参数然而算法是通过使用训练示例来对新数据进行分类来设计的。由于这些方法直接建立在数据之上而不是估计或预测参数因此它们通常比参数方法具有更高的准确性。特别是在训练数据的分布无法用有限数量的参数建模的情况下使用非参数方法似乎更合乎逻辑。非参数方法包括 KNN的主要缺点是需要所有的训练样本才能对新样本做出决策。这会导致内存和计算成本增加尤其是对于大型数据集。如果训练样本以简单简短的描述符形式表示深度学习和深度网络近年来取得了进展并在许多应用中取得了可接受的结果包括目标检测和识别[ 4、13、14、15、16、17、18、19 ]。与传统方法不同这些方法不需要单独的步骤来手动提取必要的特征。为使用深度学习 [ 16 ]进行对象检测而提出的最著名的架构之一是“You Only Look Once”YOLO[ 20 ]。深度学习对农业、医学、监视和监控系统等各种应用的重要性与日俱增 [ 21、22、23]. YOLO 算法于 2016 年首次推出旨在高速准确地检测物体。这种方法为物体识别系统引入了一种新的结构。由于受到了极大的关注已经实现了不同版本的 YOLO。YOLO 代表“你只看一次图像”。该术语指的是人类视觉系统一眼就能检测到物体的能力。因此YOLO物体识别系统旨在提供一种类似于人类视觉系统的检测方法。YOLO 算法由一个用于特征提取的 24 层卷积神经网络 (CNN) 和两个用于预测对象概率和坐标的全连接层组成。更快的基于区域的 CNN更快的 R-CCN[ 24 ] 是另一种最先进的基于深度学习的技术。它于 2015 年作为区域提议网络 (RPN) 引入用于与检测网络共享全图像卷积特征从而实现几乎无成本的区域提议。RPN 是一个全卷积网络可同时预测每个位置的边界框和目标分数。它是基于区域的 CNN (R-CNN) [ 25 ]中使用最广泛的最新版本。金属物体的检测和分类是机器图像和视觉处理的重要应用尤其是在工业和商业领域 [ 26,27,28 ]。在参考。[ 26 ]提出了一种基于深度 CNN 的技术来检测金属螺钉及其表面的微缺陷。使用工业相机拍摄了不同类型的金属螺钉的图像。然后使用所提出的深度网络架构来诊断和检查螺丝的无瑕疵。实验结果表明该技术可以达到98%的检测准确率。然而该方法仅针对螺丝图像进行训练并未包括其他类别的金属物体。参考文献中介绍了一种用于将硬币与纸币分开的自动移动识别系统。[ 27 ]。所提出的方法基于尺度不变的特征变换颜色描述符提取方法并且可以在智能手机上运行。根据一组约旦常见的纸币和硬币图像审查了该方法的结果。尽管此方法在将硬币与纸币分离方面具有良好的准确性但该问题和方法似乎更像是形状检测而不是对象分类。因为硬币都是圆形的而钞票是矩形的所以所提出的方法不能推广到检测其他物体。参考文献中提出的方法。[ 28 ] 专注于用于各种行业特别是汽车行业的螺丝识别系统。所提出的方法基于反向传播神经网络。实验结果表明该系统能够以适当的精度检测生产线上的移动物体然而它仅限于检测两类螺丝和螺母。对象分类中最关键的挑战之一是选择合适的特征提取方法 [ 13 ]。此阶段选择不当会影响分类的准确性并导致决策失误。因此有必要对各种特征提取方法的效率进行综合研究。一种特征提取方法可能适用于特定的分类算法但如果用于其他分类器则可能效果不佳。因此有必要比较几种分类算法的结果以进行详细的分析研究。鉴于上述情况本研究的主要目的是综合比较方向梯度直方图HOG和局部二元模式LBP特征向量的性能。本研究探讨了 HOG 和 LBP 方法在对四组金属物体螺丝、螺母、钥匙和硬币进行分类时的效率。为了详细研究这些特征采用了三种不同的分类方法即非参数 KNN 算法、SVM 和 NB 方法。使用 HOG 和 LBP 特征向量以及这两个特征向量的组合来研究每种方法的准确性。然后将这些方法的有效性与 YOLO 和更快的 R-CNN 深度学习方法进行比较。本研究的主要贡献包括1提供了使用 HOG 和 LBP 方法对小物体进行分类的分析研究(2) 使用三种常规方法KNN、SVM 和NB对HOG 和LBP 进行综合比较3使用YOLO作为深度学习方法进行更详细的对比(4) 提供多样化的金属物体图像集可在未来的研究中用作比较不同方法的基准集。下一节讨论所提出结构中的方法。结果和讨论部分分析了从传统技术和深度学习方法例如 YOLO 和更快的 R-CNN获得的结果。最后一节介绍了本研究的结论。方法图1显示了所提出的图像分类方法的一般结构。通过为每一个训练样本提取对应的描述符所有的训练数据都是矩阵的形式其中每一行代表一个样本的特征向量每一列代表特征空间中的一个特征。训练数据被标记因此每个相关类在建议的算法开始时都是可用的。基于这些训练样本创建参数或非参数模型用于预测测试图像的类别。如图1所示特征提取涉及使用 HOG 或 LBP 方法之一或这两种方法的组合。分类指的是上述三种方法中的一种KNN、SVM、NB。随着新样本测试图像的到来提取所需的特征并使用创建的模型估计未知样本的标签。确定测试样本后为每个分类模型生成一个混淆矩阵。使用混淆矩阵检查不同方法的效率。要计算梯度的直方图将 0-180° 之间的距离除以n 个相等的距离表示梯度或直方图条的方向数。这些距离中的每一个都形成一个直方图通道。使用 0–180° 的范围而不是 360° 范围因为通常需要额外的杆才能在 0–360° 的范围内提取。因此较小的范围可以节省更多的特征提取时间。实验观察还表明相对于 180° 范围使用 360° 范围对改善结果的影响很小。正如参考文献中所讨论的。[ 29 ]一个九柱直方图在实验中取得了更好的效果因此本研究使用相同数量的柱来计算 HOG。为了计算直方图图像被分成几个单元格。然后每个像素根据其梯度方向为直方图通道之一投票。这些投票根据该像素中梯度的大小进行加权。这会为每个单元格生成一个直方图用于描述像素的梯度。在某些情况下通过连接相邻单元格的直方图来计算块由多个单元格组成的 HOG图2。图 2 灰度图像的 LBP 中的特征向量计算如下。想要的图像被分成几个块每个块又被分成几个单元格。对单元格中的每个像素执行以下计算。每个像素都与它的八个相邻像素进行比较。在特定方向例如顺时针上单独检查相邻像素。当中心像素大于相邻像素时写入数字“0”否则写入数字“1”。以这种方式通过将中心像素与其八个相邻像素进行比较来获得八位数。为方便起见该数字通常转换为 0-255 之间的十进制数图3。为每个单元格计算上一步中获得的数字的直方图。此直方图有 256 个条从 0-255每个条显示该单元格中特定数字的重复次数。如有必要对所需的直方图进行归一化。整个块的直方图是通过连接相邻单元格的直方图得到的。因此如果一个块包含四个单元格则生成的特征向量的长度为 256 × 4。图 3 图3显示了 3 × 3 邻域中的二进制模式计算示例。二进制模式 00010011 被分配给中心像素左侧图像中的灰度级为“5”。在完成所有块的计算后通过使用适当的模型对生成的特征向量进行处理以对所需图像进行分类。这些分类器可用于对象分类、人脸识别、纹理分析等。已经提出了不同类型的 LBP 算法相对于原始算法有各种变化。最有用和广泛使用的 LBP 类型之一是统一模式它可以显着减少特征向量的长度 [ 35 ]。这个想法源于这样一个事实即某些二进制模式称为统一二进制模式的出现次数特别重要。如果一个像素生成的二进制模式最多有两个 0-1 或 1-0 转换则称为统一模式。例如00010000 是具有两个转换的统一模式0-1 和 1-0但具有五个转换的模式 01010111 是不统一的。具有最多事件数的统一二进制模式对应于图像的基本特征例如图像的边缘、角和重要点 [ 34 ]。因此均匀的图案可以被认为是识别图像主要特征的因素。所有非均匀模式都分配给一个单独的容器每个均匀模式都有一个单独的容器。由于 58 个统一模式在 0-255 范围内因此统一 LBP 特征向量的长度为 59这比普通 LBP 中 256 的长度显着减少。以这种方式通过比较局部邻域并计算统一的 LBP 直方图创建图像签名来表示纹理的类型。生成的签名对于属于不同类别的图像来说足够独特。因此LBP 可用于对纹理进行分类。 KNN算法 KNN 算法是最常见的非参数分类方法之一[ 10,11,12,38 ] 。在非参数方法中不需要在学习阶段计算参数。使用数据本身设计了一种算法来检查新数据是否属于训练类。这些方法的优点是不需要参数估计通常比参数方法更准确然而它们的主要局限是它们需要所有的训练样本来对新样本进行分类。这会增加内存和计算成本尤其是对于大型数据集。用于对图像进行分类的 KNN 分类步骤如下。上传训练数据集和相关标签然后选择 K 的值作为邻居数。计算测试图像和每个训练样本之间的距离。根据上一步计算的距离训练样本按升序排序。前 K 个项目是从排序集中选择的。在上一步中检查所选项目的标签。选择最频繁标记的类作为测试样本的预测类。图4显示了使用 KNN 算法进行二分类的示例。在这种情况下如果k 3则测试样本被认为属于 B 类因为在三个近邻中两个邻居被标记为 B一个邻居被标记为 A。图 4 如果k 6情况会有所不同因为在这种情况下四个邻居被标记为 A两个邻居被标记为 B因此测试样本被归为A类。分类算法的准确性可以通过将预测标签与测试样本的实际标签进行比较来验证。基于 SVM 的分类器 SVM是目前广泛使用的分类方法之一[ 5 , 6 ]。SVM 方法目前的流行程度可以与过去十年神经网络的流行程度相提并论。SVM 基于数据的线性分类。图5显示了一个可以线性分类的数据集示例。绘制了几条线来对数据进行分类。在数据的线性划分中试图选择具有更可靠余量的行。二次规划用于寻找最优线性分离器这是解决有限问题的已知方法。 SVM的基本思想是假设类别是线性可分的得到一条具有最大边距的线来分隔类别。为了找到这样的分隔符两条边界线平行于分隔线绘制并且被分开使得它们与数据碰撞。最大化线性分隔符之间训练数据余量的分隔最小化泛化误差。最靠近分隔线的训练数据称为支持向量图5。值得注意的是对于大于二的维度使用术语“超平面”而不是“线”。超平面是一个几何概念表示n维平面概念的推广。换句话说超平面定义了后续的kn维空间中的子空间使得k n。 SVM 的最佳特性之一是在数据不可线性分离的情况下SVM 使用非线性映射函数 Φ 将数据映射到更大的维度。这样数据就可以在这个新的空间中线性分离。这意味着在其原始空间中不可线性分离的样本移至称为 F 的新特征空间以创建用于分离它们的超平面。当这个超平面回到原来的空间I时它形成了一条非线性曲线。如图6所示输入数据不是线性可分的没有一条线可以准确地表示两个类之间的边界。然而通过将它们从二维空间映射到三维空间可以创建一个超平面来分隔这两个类的边界。注意类别 NB是一种基于概率的机器学习算法可用于广泛的分类问题 [ 7、8、9 ]。NB 算法的常见应用包括垃圾邮件过滤、文档分类和情绪预测。这种 NB 算法使用贝叶斯定理来产生结果基于特征之间强独立性的假设。这意味着更改一个特征的值不会直接影响任何其他特征的值。尽管这个假设对于真实世界的数据集来说过于简单正如算法的名称所暗示的那样但 NB 分类器仍然在分类算法中找到了一个有价值的位置。假设X ( x 1 , x 2 , .. x n ) 将数据样本表示为n 个独立变量的向量。计算概率P [ C k | ( x 1 , x 2 , .. x n )]使用联合概率就足够了并使用关于变量独立性的条件概率来简化它。深度学习方法 YOLO 是最先进的实时目标检测系统。它使用单个神经网络来获取完整图像。该网络将图像划分为区域并预测每个区域的边界框和概率。使用预测概率对这些边界框进行加权。要使用YOLO算法首先需要准备训练图像。为 YOLO 算法准备训练集的方法不同于传统方法例如 SVM 或 KNN。需要在每个对象周围绘制一个边界框对应的类由用户确定。可以使用各种程序来绘制边界框并对其进行标记。在这项研究中MAKESENSE ( Make Sense ) 程序用于标记训练图像。以这种方式为每个训练图像创建一个文本文件其中每一行都写有对象的规格。第一个数字与对象的类别有关然后写入矩形中心的坐标及其长度和宽度。文件中的行数等于图像中的对象数。图7显示了来自 MAKESENSE 程序输出的训练数据和生成文件的示例。该程序还用于为另一种深度学习方法更快的 R-CNN标记图像。图 7 Faster R-CNN 是一种用于对象检测的深度卷积网络作为用户使用的单个端到端统一网络。该网络可以在短时间内预测多个物体的位置。加州大学伯克利分校的研究人员于 2014 年开发了 R-CNN [ 25 ]。R-CNN 是一种深度卷积网络能够检测图像中的 80 种不同类型的对象。与目标检测方法的通用管道相比R-CNN 最重要的贡献是基于 CNN 的特征提取。 R-CNN 由三个主要模块组成。第一个模块使用选择性搜索算法生成 2000 个区域建议。在调整到固定的预定义大小后下一个模块从每个候选区域中提取长度为 4096 的特征向量。第三个模块利用预训练的 SVM 算法将区域提议分类为对象类之一或作为背景。R-CNN 模型有一些弱点它是一个多阶段模型其中每个阶段都是一个独立的部分。因此它不能进行端到端的训练。它从磁盘上预训练的 CNN 中捕获提取的特征来训练 SVM。这需要千兆字节量级的大容量存储。R-CNN 依赖于选择性搜索算法来创建区域建议这需要很长时间。此外该算法不能针对检测问题进行定制。每个区域提案都在不依赖 CNN 的情况下进行特征提取因此不适合实时运行 R-CNN。作为R-CNN模型的扩展提出了fast R-CNN模型[24 ] 来克服其中的一些限制。结果与讨论在本研究中使用 MATLAB 软件 2019 版实现了传统分类方法SVM、KNN 和 NB。准备了一组图像包括 800 张训练图像和 180 张测试图像用于分析 HOG 和 LBP 方法的效率。更具体地说为四个类别螺丝、螺母、钥匙和硬币中的每一个考虑了 200 个训练图像和 45 个测试图像。在 HOG 的情况下每个单元格的大小为 64 × 64 像素每个块包含 2 × 2 个单元格方向直方图中的 bin 数量为 10HOG 特征向量的长度为 360。对于LBP单元格大小为64采用长度为160的旋转不变均匀特征向量。因此组合特征向量 (HOG-LBP) 的长度为 520。尝试在对象类型和照明条件方面提供足够的多样性。图8显示了收集的数据集中的图像示例。在检测坚果时使用 HOG 得到 34 次正确检测但 LBP 的这个值为 36。该表还表明使用 HOG-LBP 特征向量组合由两个单独的特征向量的连接产生比单独使用这些特征中的任何一个产生更好的结果。图9显示了 SVM 的接收器操作特性 (ROC) 曲线和三个不同特征向量的曲线下面积 (AUC) 值。该图表明组合特征向量 (HOG-LBP) 比单独使用 HOG 和 LBP 取得了更好的结果。在实施深度学习方法时10% 的训练图像被用作验证集。表4显示了使用 YOLO 版本 5 和更快的 R-CNN 获得的混淆矩阵。如表4所示这两种方法的分类精度都很高。在 YOLO 中一个 nut 没有被放置在任何一个类中。所示. YOLO 和 Faster R-CNN 等深度学习方法的优势之一是它们能够识别对象的位置并在多对象条件下对它们进行分类即一帧中有多个对象。相比之下在传统方法中这种能力是不存在的需要使用辅助算法来检测物体的位置。图12中示出了多次检测的示例。值得注意的是YOLO 和更快的 R-CNN 算法不需要单独的步骤来提取特征向量。在这方面它们可能优于基于特征的方法如 KNN 和 SVM。然而与基于特征的提取方法相比实施深度学习算法对硬件的要求更高。在本研究中YOLO 和更快的 R-CNN 算法是使用 Google Colab 实现的。YOLO 和 Faster R-CNN 的另一个缺点是标记训练数据的方法这使得这些算法的训练阶段比传统方法更加困难和耗时。考察表1、2、3、4中的混淆矩阵表明一般来说HOG方法的特征提取性能优于LBP方法但它们的组合特征向量HOG- LBP比单独使用更准确用于对小型金属物体进行分类。此外基于 SVM 的方法比基于 KNN 和基于 NB 的方法表现更好而基于 NB 的方法的精度低于其他方法。尽管基于 SVM 的方法不如 YOLO 和更快的 R-CNN 准确但与深度学习方法相比它对硬件的要求更少训练阶段也更容易。结论在这项研究中评估了两种特征提取方法HOG 和 LBP在对螺丝、螺母、钥匙和硬币等小金属物体进行分类时的效率。使用了三种不同的分类包括基于 KNN、SVM 和 NB 的方法。实验表明一般来说HOG 优于 LBP并且使用它们的组合特征向量HOG-LBP优于单独使用它们。还将这两种方法的有效性与基于深度学习的 YOLO 和 Faster R-CNN 的方法进行了比较。尽管深度学习方法不需要单独的特征提取步骤但它们需要比传统方法更强大的平台。传统的特征提取方法如 HOG 和 LBP其优势在于提取的特征向量可以用于不同的分类器以选择更准确的分类器。然而这些方法的缺点是它们只能对检测到的对象进行分类。换句话说它们无法检测图像中前景物体的位置。在这种情况下必须应用前景提取方法然后可以使用传统方法如HOG为每个前景区域生成特征向量。相比之下深度学习方法确定图像中的对象位置并对这些对象进行分类。这是 YOLO 和 Faster R-CNN 算法最积极的地方但它们的缺点是在训练阶段需要手动图像标注这对于大型数据集来说既费时又费力。尽管如此深度学习方法在各种应用中的重要性正在增加例如农业、医学和监控系统。在继续本研究中所做的研究时可以检查其他纹理特征分析例如 Gabor 滤波器。可以发展四级分类以对更大的数进行分类。此外可以采用集成方法来考虑各种大小的对象。与其他深度学习方法的比较将更好地理解不同特征提取方法的效率。总的来说这项研究的结果可以应用于工厂和工业车间。因此在未来的研究中可以探索获取工业图像并在真实环境中提供所提出方法的实际实现。

查看全文

http://www.w-s-a.com/news/209846/