天津通信网站建设,什么网站做学校设计,上海模板网建站,wordpress超精简主题最近专栏来了很多的新手小白#xff0c;对科研实验的过程感到困惑和无从下手#xff0c;这篇文章就来讲解一下整体的科研流程#xff0c;从选择数据集到发表论文的各个步骤#xff0c;并针对大家在实验中常犯的错误进行解答。并且为大家提供通向我其他相关博客的指引#…最近专栏来了很多的新手小白对科研实验的过程感到困惑和无从下手这篇文章就来讲解一下整体的科研流程从选择数据集到发表论文的各个步骤并针对大家在实验中常犯的错误进行解答。并且为大家提供通向我其他相关博客的指引这里面很多内容我都在其他博客单独讲过。
还有什么疑问欢迎大家提出来这个文章会不停的更新下去~ 文章目录 准备工作明确改进场景/数据集明确改进任务明确改进基线实验设备准备改进答疑队友 Q1训练集验证集测试集怎么分Q2用一个小数据集测试效果再换大数据集Q3预训练权重到底用不用怎么用Q4训练结果图怎么看怎么看收敛和过拟合Q5订阅了专栏后怎么开始Q6训练技巧 准备工作 明确改进场景/数据集
首先我们应选择一个具体的细分场景进行实验这样更容易取得成果而不是直接选择COCO数据集来开发通用的检测算法像 YOLOv5/6/7/8/9/10 那样因为这对新手而言难度较大成本也很高。
目前检测场景的应用非常非常广泛。以下是一些常见的场景。我建议选择较为冷门的场景因为这些通常更容易出成果。像烟雾、绝缘子、安全帽和火焰这类常见的检测对象我并不推荐因为相关研究已经非常丰富知网随便一搜便能找到大量文献水文还就喜欢做这些场景。
下面是一些智慧城市的场景大家可以参考下寻找一个自己感兴趣的方向 其实这部分最重要的就是数据集问题很多同学选择场景其实就是看自己能搞到什么数据集一般常见的获取数据集方法有四种
开源数据集私有数据集自制数据集购买数据集
四种方法中我最推荐用前两种方法。首先说开源数据集这其实是最好的选则一方面可以增加你论文的说服力另一方面这样的数据集用的人多起码不会出现标注上的问题标注质量能得到保证还有些同学从开源的大数据集中抽一部分或者一类这样其实也行的论文交代清楚就行这种开源的数据集很多很多各种比赛都会开源当然COCO数据集Object365啥的就没必要尝试了。VOC还是可以试试的。
私有数据集指的是你自己个人有的或者你们实验室私有的这种数据集只有你有你不开源其他人是用不了的。所以你懂的。
至于自制数据集除非必要尽量避免自行制作。整个过程包括拍摄照片、数据清洗、标注和核对非常耗时耗力。
如果你就是想自制数据集那我这里也给你点思路数据量少直接上在线的标注网站推荐 makesense简单易上手不用配环境这篇文章讲过用法。数据量大就自己本地搭建一个比较稳定常见的就是 labelImg 除此之外还有很多半自动标注的比如 GroundingDINO 系列另外我个人推荐一个项目X-AnyLabeling据说还不错。 购买数据集当成私有数据集是我最不推荐的方式很多时候还不如自制数据集主要是无良奸商太多了数据集质量参差不齐有些商家甚至会从开源数据集中提取数据后声称是自行标注的或者将开源数据集冒充为私有数据集出售如果这种情况在论文中被发现怎么解释。相比之下自制数据集虽然比较耗时但至少能确保数据的来源和质量。
这里我强烈推荐大家看我这篇文章完整的数据集处理、训练、验证、推理 我都详细讲过了。
下面是另外一些常见的场景
编号常见场景1行人检测2布匹缺陷检测3PCB印刷电路板缺陷检测4船舶检测5摔倒行为检测6驾驶员疲劳检测7烟雾检测8火焰检测9电力系统中绝缘子的损坏检测10水下目标检测11细胞检测12番茄成熟度检测13农作物病虫害检测14水稻生长情况检测15动物种类识别16植物病害检测17车辆检测与识别18交通标志识别19无人机检测20体育运动员动作分析21安全帽佩戴检测22商品识别与分类23表情识别24药品包装检查25果蔬分类和质量评估26垃圾分类27食品安全监控28历史文物识别保护29海洋生物研究30遗迹探索31夜视监控32肺部疾病X光分析33手势识别34机场行李安全检查 明确改进任务 目前 YOLOv8 框架支持五大主要视觉任务分类、检测、分割、关键点识别和旋转框检测订阅我专栏的同学们你们可以在这五种任务中任选一个做改进我的改进专栏会涵盖这五种任务并且我写的 YOLO-Magic 系列框架 也给大家提供了上百种 yaml 文件覆盖所有的任务分类没写这个过于简单大家可以直接上手实验对代码能力差的同学非常友好直接喂到你嘴边了求你张嘴吃点吧
下面给大家简单介绍下这几种任务我一般推荐大家选择检测任务检测日常应用最广泛而且我博客也是主讲的检测。 分类Classification 任务解释分类是将输入的图像分配到预定义的类别的过程。比如给你一张图你给他分成或这是最基础的计算机视觉任务也是最简单的任务在图片内容复杂时单标签的分类没有什么应用价值。 常见应用场景 动物识别在野生动物监控中自动识别图像中的动物种类。车辆分类在交通监控系统中区分不同类型的车辆如卡车、轿车、摩托车等。表情识别在社交软件或安全监控中识别人脸表情如快乐、悲伤、惊讶等。 检测Detection 任务解释检测不仅识别图像中的对象还确定其位置通常表示为矩形边界框。比如图片中有个用矩形框给框起来。 常见应用场景 行人检测在城市监控和自动驾驶系统中检测街道上的行人以预防事故。安全帽检测在建筑工地监控安全规范检测工人是否佩戴安全帽。火焰和烟雾检测在安全监控系统中快速检测起火点或烟雾以早期预防火灾。 分割Segmentation 任务解释分割是在像素级别上识别和分类图像中的每个部分可以是语义分割识别不同的语义区域或实例分割区分不同的对象实例。 常见应用场景 医学图像分割在医学成像中如MRI或CT扫描精确分割不同的组织和器官用于更好的疾病诊断。道路分割在自动驾驶技术中分割和识别道路、人行道、障碍物等以安全导航。农田分析在农业监控中分割不同的作物区域监测作物健康和生长状况。 关键点Keypoint Detection 任务解释关键点检测涉及识别图像中的特定点这些点通常是对象的重要部分如人体的关节面部关键点。 常见应用场景 人体姿态估计在体育分析或人机交互中检测人体各关节的位置分析人体姿态。面部关键点检测在面部识别或动画制作中识别面部的关键点如眼睛、鼻子、嘴巴等用于进一步的表情分析或面部动画。 旋转框定向目标检测OBB 任务解释方向有界框检测是在检测任务中的一个变体不仅识别对象的位置还包括其方向其实就是可以旋转的矩形框。 常见应用场景 船舶检测在海上交通监控中检测船只的位置及其航向用于交通管理和避免碰撞。停车位监控在停车场管理系统中检测车辆的精确位置和停放角度优化停车资源分配。航拍图像分析在城市规划或军事侦察中通过航拍图像检测目标物体的方向和位置。 明确改进基线
既然大家都订阅了我的专栏那这个问题就不用你们考虑了YOLOv8 的框架叫做 ultralytics 这个框架就可以理解为代码基线里面不仅有 YOLOv8 算法还有完整的 RT-DETR 和 YOLOv10。
你们唯一要选的就是初始一次实验选择 yolov8n 还是 yolov8s这里就根据数据集的类别和数量选一般情况小于3000张n足够了但是你选 s 也行这没什么太多的讲究这两个尺寸一般情况下在对比实验时都会跑一次的。选太大尺寸的模型没啥必要了模型越大占用显存越多训练越慢收敛越难。
这里回答一个大家经常担心的问题比如经常有老师说“你这个太老了YOLO已经更新到v10了”
实际上对于这种担心是没有必要的。首先需要明确的一点就是YOLOv9 是在 YOLOv5 的框架上开发的而 YOLOv10 则是基于 YOLOv8 的框架。因此我们不能武断地说一个版本“老了”。关键在于你如何撰写和展示你的成果也就是我们常说的讲故事。即使你的工作是在 YOLOv5 框架上进行的改进也完全可以将其描述为你提出的一个新变体例如 “xxYOLO/YOLOxx”。你们订阅我的专栏不仅仅学会的是改进的 v8而是整个框架未来我把 v10 集中进来你们依然也会直接上手改进。所以你选择了这个专栏就意味着你永远不用担心框架过时我会让他保持最新你们只管实验代码我来解决
总的来说就是基线的选择并不能决定你的工作“老不老”基线代码只会影响你改进的效率和难度。 实验设备准备
首先要明确一点如果你没有显卡想用 CPU 来进行实验建议你放弃这个想法
至少应配备一块显卡因为 CPU 与 GPU 在性能上的差距实在太大。当别人完成 100 100 100次实验时你可能连 1 1 1次都未完成等你做完实验YOLO 可能已经更新到 YOLOv99 了。即便大家自己的笔记本有显卡我也不太推荐一方面是因为显存较小运行速度慢另一方面长时间满负荷运行会严重损害机器但主要还是因为显存小速度慢。
那么怎么办呢答案是租 AutoDL 现在租48G显存的A40显卡的机器每小时的费用仅需两块多能极大地加快实验速度因为你可以设置非常大的batch size。我建议大家至少上一个 RTX 3090 显卡。
另外关于 IDE 的选择虽然 Pycharm 很好用但我个人更推荐 VScode 尤其是在远程连接云服务器时VScode的用户体验远胜于 Pycharm 。后续我会分享一些我常用的 VScode 插件和配置。
有关 AutoDL 云服务器训练 YOLOv8 的手把手视频教程大家请看我的哔哩哔哩 改进答疑队友
这其实是你必备的一群志同道合的伙伴会解决你很多问题而且也可以在学习路上给到很多的帮助订阅了 YOLOv8 改进实战的同学记得进群除了有答疑外还有一些博客的相关代码YOLOv8-Magic 框架就是进来才能获取的本人亲自维护 Q1训练集验证集测试集怎么分
首先说三个集合是干啥的举一个通俗的例子 训练集Training Set 训练集就像是你在驾校练习时所驾驶的那部分道路。你在这些路段上一遍又一遍地练习通过不断的重复你的驾驶技能逐渐提升。在机器学习中训练集用来训练或者“教育”你的模型。模型通过分析这些数据尝试学习到数据中的模式和规律从而做出准确的预测。 验证集Validation Set 验证集好比是你在不同的驾驶场景下进行模拟考试的路段。这些路段用来检测你的驾驶技能是否真的达标以及你是否准备好去参加真正的驾驶考试。在机器学习中验证集用来测试模型在训练过程中的表现。开发者利用这些数据来调整模型设置如调整模型参数以便模型能更好地学习和预测。 测试集Test Set 测试集则相当于你的实际驾驶考试是在完全未知的路段进行的。你之前没有在这些路段上练习过因此它能准确地反映出你的驾驶技能。在机器学习中测试集用来评估模型在完全未知数据上的表现。这帮助你了解模型在实际应用中能达到怎样的效果。
在划分数据集的问题上网络上确实有许多不同的建议如 8:1:1、7:2:1等。其实关键在于确保你的训练集足够大足以支持模型的训练。在这种情况下你可以根据自己的需要自由划分2:1:1 的比例也是完全没问题的。
关于数据集应该分成几个部分上面的解释大家也看到了三个数据集——训练集、验证集和测试集各有其独特的功能。最理想的做法是分为三部分这样可以在论文中准确地报告测试集上的精度这是最标准的做法。
但是现在很多论文就划分为两个数据集一个用于训练另一个用于测试。这种方法也是可行的取决于你的数据量。如果大家不想在数据处理上审稿人指出问题建议直接采用三个数据集的划分方法。这样既符合标准也能更有效地评估模型性能。 Q2用一个小数据集测试效果再换大数据集
“我先用一个小数据集测试一下这个改进的效果然后再在我的大数据集上实验这样岂不是节省了资源又加快了实验进度我真实个天才”
经典的错误标准的零分首先我给大家提供的改进点都是已发表论文里面的有效性人家已经验证过了不需要你验证了理论上每个模块都是正确的。其次深度学习模型在不同数据上的泛化能力是不一样的
举一个最简单的例子你在A数据集涨点的改进在BC数据集都可能不涨点。反过来也是ABC数据集都不涨点的改进在你的Z数据集上就涨点了
所以给你提供A数据集上的实验结果特别还是那种自己的小数据集对你改进你自己的数据集没有任何意义
但是说到这里其实有一个技巧不一定有效上面的做法肯定是错的但是我们可以从自己的数据集再抽一部分形成一个小的用这个小的实验有效的改进点再换到自己的大数据集。切记不到万不得已别用这个技巧可能让你走弯路 Q3预训练权重到底用不用怎么用 先说结论看情况。这次我回答的详细点。
举个简单的例子模型就像一把锁而预训练权重则类似于这把锁的钥匙。每把锁都有自己独特的内部结构决定了只有特定形状的钥匙才能打开它。
深度学习中的模型是指由多层神经网络构成的特定结构这些结构定义了数据如何被处理和传递。就像锁的机械结构决定了钥匙需要什么样的形状和尺寸才能匹配。
预训练权重则是这把锁专用的钥匙它包含了所有必要的细节和形状以适应锁的内部结构。这些权重通过在大量数据上的训练获得已经被优化可以很好地解决特定类型的问题。
将预训练权重应用于一个模型就像是使用钥匙来开锁。如果钥匙和锁是为彼此设计的那么锁就能被顺利打开模型就能有效地完成任务。但如果你拿着一把钥匙去尝试开一个完全不同设计的锁那么无论你怎么尝试锁都不会打开。
这种情况在深度学习中也是类似的。如果一个模型的结构锁的设计和预训练权重钥匙不匹配那么权重将无法在这个模型上发挥作用模型也无法正确执行任务。所以说选择正确匹配的模型和预训练权重就像是为特定的锁挑选合适的钥匙。
再引申到YOLO算法你官方项目下载的那个 yolov5s.pt 就是预训练的权重钥匙yolov5s.yaml 就是模型的结构锁只有yolov5s.pt 才能打开 yolov5s.yaml。也就是说只有 yolov5s.pt 才能完美的匹配 yolov5s.yaml yolov5s.pt 是没办法匹配上你的 mobilenet-yolov5.yaml 的
再说一个细节YOLO 项目的匹配机制有点特殊权重和模型从第一层开始匹配按顺序尽可能多地匹配这就像是钥匙插入锁孔相当于钥匙插进锁孔即便只插入一半也能发挥点作用。
所以说当你改了模型的后面几层只要是不改第一层加载权重时仍然能匹配上部分层理论上权重也会发挥点正向作用。
但是这里需要注意控制实验中的变量很多同学在基线模型中使用了预训练权重相当于给基线加上了蓝BUFF。 自己的模型也加载官方给的那个权重而如果你的模型结构与官方提供的权重不匹配相当于你的模型吃不到蓝BUFF这对你改进是不利的
我建议直接统一都不加那什么时候才加载预训练权重呢?
如果你的数据集很少那么权重可能对你的模型精度影响很大加了权重90%不加30%那这个时候你就得考虑加载预训练权重了
怎么加载预训练权重两种思路
如果你不想改主干那简单基线模型和改进模型都加载官方的权重误差也差不太多其实不是很严谨如果你想改主干那你改进的模型得先去大数据集预训练一个权重再加载这个权重训练你的小数据集。
怎么冻结主干训练
这篇文章 我给了大家训练脚本里面有个 freeze 参数主干网络 0-9一共十层想冻结整个主干网络就让 freeze9 冻结主干的意思就是主干这部分使用预训练权重的参数训练时只更新主干外的层的参数冻结可以让你训练的更快搞清楚自己的需求和情况别乱用。 Q4训练结果图怎么看怎么看收敛和过拟合
啥叫过拟合?
简单来说就是模型对于训练数据学得“太好了”以至于它在处理新的、未见过的数据时表现得不好。
简单例子如果你准备考试只死记硬背书本上的题目和答案而不去理解其中的概念和原理那么在考试中如果遇到稍微变化一点的题目你可能就答不出来了。这就像过拟合在训练过程中模型学会了训练数据的每一个小细节甚至包括其中的噪声和错误但这种“过度学习”却使得它失去了泛化能力也就是处理新情况的能力。
过拟合的模型在训练集上的表现可能非常好准确率很高但在新的或未知的数据集测试集上表现往往不佳。这是因为模型已经将训练数据中的特定特征和随机噪声学习得太彻底而这些特征并不适用于其他数据。
防止过拟合的方法有很多例如增加数据量使用数据增强技术简化模型的结构或者使用正则化技术等我们一般在YOLO里面就是通过训练结果的 result.png 判断或者看 tensorboard 的结果。YOLO 一般有三个损失只要 val 的 loss 翘起来了就是发生了过拟合。
怎么判断过拟合?
拿下面这张图来说训练集的损失是持续下降的验证集的 box_loss 和 cls_loss 也是持续下降的但是 obj_loss 不降反升这就是典型的过拟合也就是我们俗称的 “翘起来了”
过拟合要不要处理?
这个展示的还算是比较轻微的情况一般单 obj_loss 升了不处理影响也不大
但三个 val_loss 都翘起来了那绝对是严重过拟合一定要处理下最简单的方法就是减小你模型的参数量早停机制什么的调参技巧你们搞不明白减少参数量是非常简单粗暴的处理方式。 怎么判断收敛? 每次跑完实验会在你的文件夹生成一个 results.png 这个必须跑完整了才会生成比如你设置300轮跑到200轮你手动停止是不会生成的这篇只说 results.png 其他的文件都是干啥的后面单出一篇文章。 我们通过这个图来分析模型的收敛情况像我这个图就收敛的很好由于我的这个mAP50很高了其实加大epoch也没太大意义了但是从图像看 mAP50-95 还是有上升趋势的也就是说加大 epoch 的情况下 mAP50-95 可能还会提升
平时判断收敛怎么看?
直接看 val lossval loss 平缓了就是收敛或者直接看 mAP 涨不动了就是收敛就这么简单。 有时候还有这种情况先跳到了很高然后又降低了这个其实也不用理会可能初始化的参数刚好拟合你的部分数据忽略就好了看整体的趋势。 最差的情况大概就是这种首先检查你的数据集标签是否正确然后考虑下自己的网络结构是否合理是否过度设计遇到这种情况只能重开换个结构继续跑。 第一次实验时建议直接跑300轮同时关闭早停机制然后分析我们的结果这一步很重要可以决定后面我们实验要跑多少轮 假如你的数据集收敛很快100轮就收敛了后面你可以将基线和改进都设置 200 轮对比如果你的300轮还没收敛你可能得考虑加大epoch或者稍微增加学习率。 Q5订阅了专栏后怎么开始
先把基础篇认认真真的看一遍我不怕你们不会就怕你们不学专栏订阅都订阅了一定要珍惜每一篇文章特别是非改进类的文章像我现在这篇写一次耗费我大量的时间且看且珍惜~
后面的改进其实你从哪里入手都行我个人建议新手先做模块级别的改进也就是先加个注意力啥的练练手先适应下流程和思路后面大家自己就有想法了。 这部分其实是给大论文用的可以增加算法级别的工作量 这些脚本需要的时候来找就行了基本满足大家的需求我也在不断地增加中 Q6训练技巧
有个训练的小技巧总有些同学反应训练完了最终的精度没截图不知道怎么看了其实没存的话可以用 val.py 再验证一次的但这我给大家一个小技巧使用 nohup 指令这个指令既可以保证终端关闭后进程不中断也会将你终端打印的所有的信息存下来你运行下面的指令后就会在你的路径下看到一个 nohup.out 文件实时的在写入本来终端应该打印的内容这样就算你出去玩了回来时依然能看到最终打印出来的结果。
nohup python train.py