当前位置：首页 > news >正文

织梦网站模板安装本地网页制作教程

news 2026/4/8 20:08:29

织梦网站模板安装本地,网页制作教程,wordpress 短信插件,石家庄建设集团有限公司网站笔记为自我总结整理的学习笔记#xff0c;若有错误欢迎指出哟~ 【吴恩达课程笔记专栏】【深度学习】吴恩达课程笔记(一)——深度学习概论、神经网络基础【深度学习】吴恩达课程笔记(二)——浅层神经网络、深层神经网络【深度学习】吴恩达课程笔记(三)——参数VS超参数、深度… 笔记为自我总结整理的学习笔记若有错误欢迎指出哟~ 【吴恩达课程笔记专栏】【深度学习】吴恩达课程笔记(一)——深度学习概论、神经网络基础【深度学习】吴恩达课程笔记(二)——浅层神经网络、深层神经网络【深度学习】吴恩达课程笔记(三)——参数VS超参数、深度学习的实践层面吴恩达课程笔记——优化算法八、优化算法1.优化算法介绍2.批量梯度下降Batch Gradient Descent目的步骤优点缺点 3.随机梯度下降Stochastic Gradient Descent, SGD目的步骤优点缺点 4.小批量梯度下降Mini-batch Gradient Descent目的步骤优点缺点理解如何选择mini-batch size 5.指数加权平均数Exponentially Weighted Averages目的步骤优点缺点具体加权过程举例指数加权平均的偏差修正 6.动量梯度下降法 (Gradient descent of Momentum)目的基本原理 7.RMSprop目的优点基本原理 8.Adam 优化算法(Adam optimization algorithm)简介工作方式优点算法 9.学习率衰减(Learning rate decay)做法几种公式 10.局部最优问题八、优化算法 1.优化算法介绍当涉及深度学习优化算法时我们通常会面临一个目标最小化一个损失函数。这个损失函数衡量了模型预测与实际值之间的差距。为了找到最佳的模型参数我们需要使用优化算法来调整这些参数以便最小化损失函数。以下是一些常用的深度学习优化算法梯度下降Gradient Descent通过计算成本函数相对于参数的梯度并沿着梯度的反方向更新参数以最小化成本函数。随机梯度下降Stochastic Gradient Descent, SGD与梯度下降类似但是每次迭代中只使用一个样本来计算梯度这在大型数据集上更有效。小批量梯度下降Mini-batch Gradient Descent结合了批量梯度下降和随机梯度下降的优点每次迭代使用一小批样本来计算梯度。指数加权平均数 Exponentially weighted averages常用于计算梯度的指数加权平均或者计算参数的指数加权平均。动量梯度下降法 (Gradient descent of Momentum) 梯度下降算法的一种改进版本它结合了梯度下降和动量的概念。RMSProp通过考虑梯度的平方的指数衰减平均值来调整学习率以应对Adagrad的学习率急剧下降问题。Adam 优化算法(Adam optimization algorithm) 在训练神经网络时有效地调整参数并能够适应不同参数的变化情况结合了动量梯度下降法和RMSProp算法。学习率衰减(Learning rate decay) 在训练神经网络时逐渐降低学习率的过程。这些算法都有各自的优劣势适用于不同类型的深度学习任务。在实际应用中通常需要根据具体问题和数据集的特点来选择合适的优化算法。 2.批量梯度下降Batch Gradient Descent 目的批量梯度下降是为了优化模型参数使得损失函数达到最小值从而实现训练数据的拟合和模型的泛化能力。步骤初始化参数随机初始化模型参数或采用预训练的参数作为初始值。对于整个训练样本集合进行如下操作计算梯度计算损失函数关于所有训练样本的参数的梯度即 ∇ J ( θ ) 1 m ∑ i 1 m ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta) \frac{1}{m} \sum_{i1}^{m} \nabla J(\theta; x^{(i)}, y^{(i)}) ∇J(θ)m1i1∑m∇J(θ;x(i),y(i)) 更新参数利用所有训练样本的梯度信息按照梯度下降的更新规则来更新模型参数 θ θ − η ⋅ ∇ J ( θ ) \theta \theta - \eta \cdot \nabla J(\theta) θθ−η⋅∇J(θ) 其中 ( η ) 是学习率 ( m ) 是训练样本的数量。优点可以保证收敛性即在合理的学习率下批量梯度下降一定可以找到全局最优解或局部最优解。缺点当训练样本很大时计算所有训练样本的梯度会非常耗时尤其在内存有限的情况下。对于大规模数据集批量梯度下降的计算效率较低。 3.随机梯度下降Stochastic Gradient Descent, SGD 目的随机梯度下降Stochastic Gradient Descent, SGD是梯度下降法的一种变种通过每次迭代仅利用单个训练样本的梯度信息来更新模型参数从而减少计算开销并加快收敛速度。步骤初始化参数随机初始化模型参数或采用预训练的参数作为初始值。对于每个训练样本 (x(i), y(i)) 进行如下操作计算梯度计算损失函数关于当前样本的参数的梯度即 ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta; x^{(i)}, y^{(i)}) ∇J(θ;x(i),y(i)) 更新参数利用当前样本的梯度信息按照梯度下降的更新规则来更新模型参数 θ θ − η ⋅ ∇ J ( θ ; x ( i ) , y ( i ) ) \theta \theta - \eta \cdot \nabla J(\theta; x^{(i)}, y^{(i)}) θθ−η⋅∇J(θ;x(i),y(i)) 其中 η 是学习率。优点减少计算开销由于每次仅利用单个样本来更新参数相比批量梯度下降SGD在计算上更为高效。适用于大规模数据集特别适用于大规模数据集因为每次迭代只需要处理一个样本。缺点不稳定性由于每次迭代仅利用单个样本使得更新方向带有较大的随机性可能导致收敛过程不稳定。学习率调整困难学习率的选择对于SGD的影响较大需要谨慎调整。 4.小批量梯度下降Mini-batch Gradient Descent 目的小批量梯度下降是为了优化模型参数使得损失函数达到最小值从而实现训练数据的拟合和模型的泛化能力。步骤初始化参数随机初始化模型参数或采用预训练的参数作为初始值。对于每个小批量样本(x(i), y(i)) 进行如下操作计算梯度计算损失函数关于当前小批量样本的参数的梯度即 1 m ∑ i 1 m ∇ J ( θ ; x ( i ) , y ( i ) ) \frac{1}{m} \sum_{i1}^{m} \nabla J(\theta; x^{(i)}, y^{(i)}) m1i1∑m∇J(θ;x(i),y(i)) 更新参数利用当前小批量样本的梯度信息按照梯度下降的更新规则来更新模型参数 θ θ − η ⋅ 1 m ∑ i 1 m ∇ J ( θ ; x ( i ) , y ( i ) ) \theta \theta - \eta \cdot \frac{1}{m} \sum_{i1}^{m} \nabla J(\theta; x^{(i)}, y^{(i)}) θθ−η⋅m1i1∑m∇J(θ;x(i),y(i)) 其中 ( η ) 是学习率 ( m ) 是小批量样本的大小。优点小批量梯度下降结合了梯度下降和随机梯度下降的优点可以更快地收敛到局部最优解。可以充分利用矩阵运算的并行性提高计算效率。缺点需要调节的超参数更多如学习率 ( η ) 和小批量样本的大小 ( m )。需要对数据进行分批处理增加了实现的复杂性。理解定义梯度下降时使用一次全部样本集合为一代。 batch梯度下降的 J 会不断下降mini-batch梯度下降的 J 不一定会不断下降但是整体呈现下降趋势。两者都需要多次遍历全部数据集才会有效果。在mini-batch中如果只经历一代那么梯度下降的效果虽然比batch一代好但总体效果仍是微小的。使用mini-batch时每重新开始遍历一次数据集应当把数据集中的数据重新打乱分配到mini-batch中体现出随机性如何选择mini-batch size 小训练集使用batch gradient decentm less than 2000通常的minibatch size64、128、256、512、1024 5.指数加权平均数Exponentially Weighted Averages 目的指数加权平均数用于对时间序列数据进行平滑处理以便观察数据的长期趋势。步骤假设给定一个序列 ( x1, x2, …, xt )其指数加权平均数 ( vt ) 的计算方式为 v t β v t − 1 ( 1 − β ) x t v_t \beta v_{t-1} (1-\beta) x_t vtβvt−1(1−β)xt ( 0 1 ) 被称为平滑因子较大的平滑因子意味着新观测值对平均数的影响更大从而使得平均数更快地适应最新的观测值而较小的平滑因子则意味着平均数更加稳定、更不容易受到新观测值的影响。 ( v0 ) 可以被初始化为 0 或者 x1 为了在开始时确定初始的指数加权平均数值优点对不同时刻的数据赋予不同的权重更加灵活地适应数据变化。计算高效每次更新只需要一次乘法和一次加法运算。缺点对于某些特定类型的数据可能对异常值outliers过于敏感从而影响平均值的准确性。具体加权过程举例假设英国去年第t天的气温是θt 要用一条曲线拟合温度变化可以进行如下操作 v 0 0 v t β v t − 1 ( 1 − β ) θ t v_00 \\ v_t\beta v_{t-1}(1-\beta)\theta_t v00vtβvt−1(1−β)θt 其中 vt 是第t天附近的 1/(1-) 天的平均天气。为什么这么规定 1 − ε 1 / ε 约等于 1 e 数学中一个挺重要的数这说明 1 1 − β 天之外的数所占的权重总共不到 1 e 不那么值得关注了 1-ε^{1/ε}约等于\frac{1}{e}数学中一个挺重要的数\\ 这说明\frac{1}{1-\beta}天之外的数所占的权重总共不到\frac{1}{e}不那么值得关注了 1−ε1/ε约等于e1数学中一个挺重要的数这说明1−β1天之外的数所占的权重总共不到e1不那么值得关注了 β 0.9 ( 1 − 0.1 ) 1 0.1 0. 9 10 β 0.98 ( 1 − 0.02 ) 1 0.02 0.9 8 50 \beta 0.9\\ (1-0.1)^{\frac{1}{0.1}} 0.9^{10} \\ \beta 0.98 \\ (1-0.02)^{\frac{1}{0.02}} 0.98^{50} β0.9(1−0.1)0.110.910β0.98(1−0.02)0.0210.9850 可以看出越大平均的天数越大拟合得越粗略。红色0.9绿色0.98 指数加权平均的偏差修正由于v00v1 v0 (1-) θ1 1-θ1前几个vi的值会非常的小如图中紫线。当迭代到一定数量之后拟合才变得正常紫线逼近绿线。偏差修正的目的是为了消除初始时刻的平均值对整体平均值的影响。偏差修正可以通过以下公式实现 v t ^ v t 1 − α t v t ^ 表示经过偏差修正后的平均值 v t 表示未经修正的平均值 β 为平滑因子 t 表示时间步 \hat{v_t} \frac{v_t}{1 - \alpha^t} \\ \hat{v_t} 表示经过偏差修正后的平均值\\ v_t 表示未经修正的平均值\\ \beta 为平滑因子\\ t 表示时间步\\ vt^1−αtvtvt^表示经过偏差修正后的平均值vt表示未经修正的平均值β为平滑因子t表示时间步通过偏差修正可以有效地减小最初几个数据点对平均值的影响得到更加准确和稳定的指数加权平均值。 6.动量梯度下降法 (Gradient descent of Momentum) 目的加速梯度下降过程基本原理传统的梯度下降法在更新参数时只考虑当前的梯度值而动量梯度下降法引入了一个额外的动量项用于模拟物理中的动量效应。在每次参数更新时动量梯度下降法会根据当前梯度和上一次的动量来计算一个更新量并将该更新量应用于参数。更新量由两部分组成一部分是当前梯度的方向另一部分是上一次动量的方向。蓝线是一般梯度下降的成本函数值迭代情况红线是动量梯度下降法中成本函数迭代境况。我们使用指数加权平均来计算新的dW和db。在竖直方向上由于平均值接近0所以动量梯度下降的竖直方向迭代值接近0 。在水平方向上动量梯度下降的迭代值则为正常水平。 d w β ⋅ d w t − 1 ( 1 − β ) ⋅ ∂ J ∂ w d b β ⋅ d b t − 1 ( 1 − β ) ⋅ ∂ J ∂ b w w − α ⋅ d w b b − α ⋅ d b dw \beta \cdot dw_{t-1} (1 - \beta) \cdot \frac{\partial J}{\partial w}\\ db \beta \cdot db_{t-1} (1 - \beta) \cdot \frac{\partial J}{\partial b}\\ w w - \alpha \cdot dw\\ b b - \alpha \cdot db\\ dwβ⋅dwt−1(1−β)⋅∂w∂Jdbβ⋅dbt−1(1−β)⋅∂b∂Jww−α⋅dwbb−α⋅db β 是动量系数 , 通常取 0.9 α 是学习率 J 是损失函数 d w t − 1 和 d b t − 1 表示上一次的权重和偏置更新量 ∂ J ∂ w 和 ∂ J ∂ b 分别是损失函数对权重和偏置的偏导数 w 和 b 分别表示更新后的权重和偏置 \beta 是动量系数,通常取0.9\\ \alpha 是学习率\\ J 是损失函数\\ dw_{t-1} 和 db_{t-1} 表示上一次的权重和偏置更新量\\ \frac{\partial J}{\partial w} 和 \frac{\partial J}{\partial b} 分别是损失函数对权重和偏置的偏导数\\ w 和 b 分别表示更新后的权重和偏置 β是动量系数,通常取0.9α是学习率J是损失函数dwt−1和dbt−1表示上一次的权重和偏置更新量∂w∂J和∂b∂J分别是损失函数对权重和偏置的偏导数w和b分别表示更新后的权重和偏置 7.RMSprop 目的解决传统梯度下降法中学习率衰减过快的问题。RMSprop通过对梯度的平方进行指数加权移动平均来调整学习率从而加速模型的训练。优点使用它的时候可以适当加大学习率基本原理如图我们不想要绿线而想要蓝线。我们需要计算一个额外变量SS等于目前数据附近水平方向或竖直方向的dX的方差。我们在更新数据W、b的时候把原来要减掉的dX除以这个方差那么方差大的方向变化量就减少方差小的方向变化量就仍处于正常水平甚至增大。 8.Adam 优化算法(Adam optimization algorithm) 简介 adam是训练神经网络中最有效的优化算法之一。它结合了momentum和RMSprop。工作方式计算上一个梯度的指数加权平均存储在v中。计算上一个梯度指数加权平均的平方存储在s中。使用adam的规则更新参数。优点通常比较节省内存尽管还是比GD和momentum多即使在低学习率条件下也能运行得很好算法 { v d W [ l ] β 1 v d W [ l ] ( 1 − β 1 ) ∂ J ∂ W [ l ] v d W [ l ] c o r r e c t e d v d W [ l ] 1 − ( β 1 ) t s d W [ l ] β 2 s d W [ l ] ( 1 − β 2 ) ( ∂ J ∂ W [ l ] ) 2 s d W [ l ] c o r r e c t e d s d W [ l ] 1 − ( β 1 ) t W [ l ] W [ l ] − α v d W [ l ] c o r r e c t e d s d W [ l ] c o r r e c t e d ε l 1 , . . . , L \begin{cases} v_{dW^{[l]}} \beta_1 v_{dW^{[l]}} (1 - \beta_1) \frac{\partial \mathcal{J} }{ \partial W^{[l]} } \\ v^{corrected}_{dW^{[l]}} \frac{v_{dW^{[l]}}}{1 - (\beta_1)^t} \\ s_{dW^{[l]}} \beta_2 s_{dW^{[l]}} (1 - \beta_2) (\frac{\partial \mathcal{J} }{\partial W^{[l]} })^2 \\ s^{corrected}_{dW^{[l]}} \frac{s_{dW^{[l]}}}{1 - (\beta_1)^t} \\ W^{[l]} W^{[l]} - \alpha \frac{v^{corrected}_{dW^{[l]}}}{\sqrt{s^{corrected}_{dW^{[l]}}} \varepsilon} \end{cases} \\ l 1, ..., L ⎩ ⎨ ⎧vdW[l]β1vdW[l](1−β1)∂W[l]∂JvdW[l]corrected1−(β1)tvdW[l]sdW[l]β2sdW[l](1−β2)(∂W[l]∂J)2sdW[l]corrected1−(β1)tsdW[l]W[l]W[l]−αsdW[l]corrected εvdW[l]correctedl1,...,L 其中 t是adam进行到的步数L是神经网络的层数1建议使用0.9和 2建议使用0.999是控制两个指数加权平均的α 是学习率ε 是一个用来放置分母为0的值很小的数 9.学习率衰减(Learning rate decay) 做法在不同的代epoch上使用递减的学习率几种公式 α 1 1 d e c a y r a t e ∗ e p o c h n u m ∗ α 0 α a e p o c h n u m ∗ α 0 α k e p o c h n u m ∗ α 0 手动调整 α 的值 \alpha\frac{1}{1decayrate*epochnum}*\alpha_0 \\ \alphaa^{epochnum}*\alpha_0 \\ \alpha\frac{k}{\sqrt{epochnum}}*\alpha_0 \\ 手动调整\alpha的值 α1decayrate∗epochnum1∗α0αaepochnum∗α0αepochnum k∗α0手动调整α的值 10.局部最优问题在神经网络规模较大、参数较多的时候实际上很难达到局部最优点更有可能达到的是鞍点。因此梯度下降被困在局部最优点不是很大的问题。鞍点会减缓学习速度而momentum、RMSprop、Adam正式可以解决这种问题

查看全文

http://www.w-s-a.com/news/164200/