微信二维码网站建设,创建全国文明城市我们在行动绘画,用wordpress案例,如何减少网站建设中的错误【学而不思则罔#xff0c;思维不学则怠】
本文总结一下常见的一些算法训练超参数调优思路#xff08;陆续总结更新#xff09;#xff0c;包括#xff1a;
batchsize学习率epochsdropout#xff08;待添加#xff09; Batch_size
2023.9.29
简单来说#xff0c;较…【学而不思则罔思维不学则怠】
本文总结一下常见的一些算法训练超参数调优思路陆续总结更新包括
batchsize学习率epochsdropout待添加 Batch_size
2023.9.29
简单来说较大的bz可以加快训练速度特别是基于GPU进行模型训练时应该在显存允许范围内尽量使用较大的bz。两个极端假设内存/显存足够大每次都是使用全量数据进行梯度计算此时训练效率最高但训练极容易陷入鞍点局部最优而无法跳出表现出来就是loss还比较高但是已经开始收敛了。但bz不是说越大越好越大bz意味着用更多的数据来计算梯度越容易陷入鞍点但若batch数量较多则当一个batch的数据使算法陷入鞍点了另一个batch的数据有机会使算法跳出鞍点。因此bz尽可能选大一些同时保证batch数量不太少最简单的方法就是从GPU显存或CPU内存运行的最大值开始实验若发现出现了loss过早收敛且比较高时陷入鞍点此时则放弃充分利用GPU而应考虑减少bz使loss能够继续下降。结论从显存/内容利用率角度和防止陷入鞍点两个角度来思考bz。
学习率
2024.1.16
lr若太大则会导致训练波动不容易收敛表现出来就是算法的loss在下降一段时间后又突然增加然后又下降然后有增加就像乒乓球落地上弹弹弹。loss曲线并不光滑如锯齿版的下降就像下图的样子。甚至始终无法收敛。lr若太小最大的问题就是需要更长的时间来进行收敛。对lr的设置除了经验值外就是观看loss收敛情况。
epochs
2024.1.16
它就很简单了先推荐设置一个较大的值然后观察能收敛的epoch即可
dropout
待添加