网站开发与运营怎么样,展示网站系统架构设计,wordpress.org 移除,贵州建设职业技术学院教务网站前言、相关知识
1.闭集和开集
开集#xff1a;识别训练集不存在的样本类别。闭集#xff1a;识别训练集已知的样本类别。
2.多模态信息融合
文本和图像#xff0c;文本的语义信息映射成词向量#xff0c;形成词典#xff0c;嵌入到n维空间。 图片内容信息提取特征识别训练集不存在的样本类别。闭集识别训练集已知的样本类别。
2.多模态信息融合
文本和图像文本的语义信息映射成词向量形成词典嵌入到n维空间。 图片内容信息提取特征形成n维向量嵌入到n维空间。 文本和图像的特征距离要尽量近一点这样文本信息和图像内容信息特征相似。可以根据一种模态输入获得另一模态类型的输出。
3. 计算机视觉任务
分类问题语义分割物体检测示例分割
一、目标检测基础知识
1. 目的输入彩色RGB图像输出检测的物体。 2. 过程分类定位 3. 最新的目标检测技术文本 图像制定类别检测 4. 现有方法分类 1. 一步法SSD、YOLO仅使用一个卷积神经网络CNN直接预测不同目标和位置 2. 两步法R-CNN、Fast R-CNN、Faster R-CNN step1先生成候选框利用Region Proposal NetworkRPN step2根据候选框分类精调 二、目标检测——R-CNN(regional with cnn feature)
 R-CNN算法步骤
用selective search划分出候选区域1k-2k区域之间可能会有重合。 对每一个候选区域使用深度网络提取特征 每一个特征送入SVM分类器判断是否属于该类别ps非极大值抑制剔除就是将重合区域最大的区域删除 ps非最大值抑制剔除IOU 使用回归器最小二乘精细调整候选框位置 R-CNN框架划分区域——ss算法特征提取——CNN网络分类器——SVM支持向量机、回归期——最小二乘法。 )R-CNN缺点速度慢、空间占用多
三、目标检测—— Fast R-CNN( fast regional with cnn feature)
Fast R-CNN是R-CNN作者在原有基础上的改善对于推理速度准确率训练时间都远远超于R-CNN。 Fast R-CNN算法步骤
一张图像生成多个候选区域1K~2K使用selective search 方法。通过深度卷积神经网络将图像输入之后得到相应的图像将SS算法生成的候选框投影到特征图上获得相应的特征矩阵。 ps此处和R-CNN的区别R-CNN将候选框输入到卷积神经网络得到特征Fast R-CNN直接将整幅图像给卷积神经网络在根据特征网络进行计算特征避免了计算重复的区域。将特征矩阵根据ROI pooling 缩放到7*7大小的特征图然后通过一系列全连接层得到结果。 每一个区域的有很多像素对于像素上的特征数据进行最大池化或者平均池化就会得到比较规整的图像。Fast R- Cnn分类器介绍 假如有n个类别如果没有满足这n个类别那么他就是背景所以一共有n1个类别的概率我们根据每个类别的概率概率最大的类别就是最终预测的类别。 Fast R- Cnn回归器介绍 Fast R- Cnn分类器是根据缩放来实现的。 %)Fast R- Cnn损失函数介绍 Fast R- Cnn论文中提出了一种新的损失函数SmoothL1Loss损失函数改善了欧氏距离L1 loss和L2 loss损失函数。主要改善的地方在于其他两个损失函数对于离群点的梯度变化过于敏感或者是不够精细SmoothL1Loss损失函数能够当预测值与真实值误差过大时梯度值不至于过大当预测值与真实值误差很小时梯度值足够小。 想详细了解差异可看这篇文章目标检测三种损失函数
四、目标检测—— Faster R-CNN( faster regional with cnn feature)
Fast R-CNN是R-CNN作者在原有基础上的改善骨干网络使用VGG16对于推理速度准确率训练时间成倍提高。
Faster R-CNN最好能够自己执行代码运行一下需要重点掌握。 Faster R-CNN 算法步骤
将图像输入网络得到特征图使用RPN结构生成候选框将生成的候选框投影到特征图上得到对应的特征矩阵。将每一个特征矩阵通过ROI pooling层缩放到7*7的大小接着通过特征图展平通过一系列全连接层得到预测结果。 主要特点是RPNFast R-CNN RPN Faster R-CNN计算总结 先网络获得特征图在特征图上使用3x3卷积获得目标得分调整锚点框位置确定候选框删除重叠和边缘候选框将最终获得的候选框投影到特征图上通过ROI pooling变成7x7的图像 PSROI pooling感兴趣区域池化Region of interest pooling也称为RoI pooling是使用卷积神经网络在目标检测任务中广泛使用的操作。例如在单个图像中检测多个汽车和行人。其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图例如7×7。最后进行分类class和目标优化(loc定位损失能够是的预测框更加接近目标框。) VGG16输入图像至少是600分辨率如果不够600分辨率会进行图像预处理 600/16800/16512的特征输入RPN。 RPN网络
RPN使用3x3卷积的目的通过3x3的卷积层获得目标得分和边界回归偏移判断特征映射图中的是不是我们候选框的目标。 根据目标得分判断是不是我们需要的目标调整我们的锚点框3x3卷积层反向画在原图片上的框如果该锚点框里面是目标那么它就升级为候选框否则的话就不画。 每个位置滑动窗口在原图上都对应339anchor。 在候选框筛选过程中去掉边缘anchor和IOU重叠就会删除掉很多现有的候选框以1000x600x3为例最终剩下2k候选框。 参数回归器和分类器用的是卷积不是全连接层原因是11的就卷积就相当于全连接层。 最后还是需要提醒大家看原文和源码深入理解原理。
参考文献陈万军西安理工大学——《目标检测》课件