当前位置: 首页 > news >正文

外贸网站该怎么做徐州网站建设要多少钱

外贸网站该怎么做,徐州网站建设要多少钱,上海住房城乡建设厅网站首页,做网站的属于什么强化学习数学基础#xff1a;随机近似理论与随机梯度下降Stochastic Approximation and Stochastic Gradient Descent举个例子Robbins-Monro algorithm算法描述举个例子收敛性分析将RM算法用于mean estimationStochastic gradient descent算法描述示例和应用收敛性分析收敛模式… 强化学习数学基础随机近似理论与随机梯度下降Stochastic Approximation and Stochastic Gradient Descent举个例子Robbins-Monro algorithm算法描述举个例子收敛性分析将RM算法用于mean estimationStochastic gradient descent算法描述示例和应用收敛性分析收敛模式一个确定性公式BGD, MBGD和SGD总结内容来源Stochastic Approximation and Stochastic Gradient Descent 举个例子 首先回顾mean estimation 考虑一个random variable X。目标是估计E[X]\mathbb{E}[X]E[X]假设已经有了一系列随机独立同分布的样本{xi}i1N\{x_i\}_{i1}^N{xi​}i1N​X的expection可以被估计为E[X]≈xˉ:1N∑i1Nxi\mathbb{E}[X]\approx \bar{x}:\frac{1}{N}\sum_{i1}^N x_iE[X]≈xˉ:N1​i1∑N​xi​ 已经知道这个估计的基本想法是Monte Carlo estimation以及xˉ→E\bar{x}\rightarrow \mathbb{E}xˉ→E随着N→∞N\rightarrow \inftyN→∞。这里为什么又要关注mean estimation那是因为在强化学习中许多value被定义为means例如state/action value。 新的问题如何计算mean barxbar{x}barxE[X]≈xˉ:1N∑i1Nxi\mathbb{E}[X]\approx \bar{x}:\frac{1}{N}\sum_{i1}^N x_iE[X]≈xˉ:N1​i1∑N​xi​ 我们有两种方式 第一种方法简单地收集所有样本然后计算平均值。但是该方法的缺点是如果样本是一个接一个的被收集那么就必须等待所有样本收集完成才能计算第二种方法可以克服第一种方法的缺点用一种incremental增量式和iterative迭代式的方式计算average。 具体地假设wk11k∑i1kxi,k1,2,...w_{k1}\frac{1}{k}\sum_{i1}^k x_i, k1,2,...wk1​k1​i1∑k​xi​,k1,2,...然后有wk1k−1∑i1k−1xi,k2,3,...w_k\frac{1}{k-1}\sum_{i1}^{k-1} x_i, k2,3,...wk​k−11​i1∑k−1​xi​,k2,3,...我们要建立wkw_kwk​和wk1w_{k1}wk1​之间的关系用wkw_kwk​表达wk1w_{k1}wk1​wk11k∑i1kxi1k(∑i1k−1xixk)1k((k−1)wkxk)wk−1k(wk−xk)w_{k1}\frac{1}{k}\sum_{i1}^k x_i\frac{1}{k}(\sum_{i1}^{k-1}x_ix_k)\frac{1}{k}((k-1)w_kx_k)w_k-\frac{1}{k}(w_k-x_k)wk1​k1​i1∑k​xi​k1​(i1∑k−1​xi​xk​)k1​((k−1)wk​xk​)wk​−k1​(wk​−xk​)因此获得了如下的迭代算法wk1wk−1k(wk−xk)w_{k1}w_k-\frac{1}{k}(w_k-x_k)wk1​wk​−k1​(wk​−xk​) 我们使用上面的迭代算法增量式地计算x的mean 这样就得到了一个求平均数的迭代式的算法。算法的优势是在第k步的时候不需要把前面所有的xix_ixi​全部加起来再求平均可以在得到一个样本的时候立即求平均。另外这个算法也代表了一种增量式的计算思想在最开始的时候因为kkk比较小wk≠E[X]w_k\ne \mathbb{E}[X]wk​E[X]但是随着获得样本数的增加估计的准确度会逐渐提高也就是wk→E[X]as k→Nw_k\rightarrow \mathbb{E}[X] \text{ as } k\rightarrow Nwk​→E[X] as k→N。 更进一步地将上述算法用一个更泛化的形式表示为wk1wk−αk(wk−xk)w_{k1}w_k-\alpha_k(w_k-x_k)wk1​wk​−αk​(wk​−xk​)其中1/k1/k1/k被替换为αk0\alpha_k 0αk​0。 该算法是否会收敛到mean E[X]\mathbb{E}[X]E[X]答案是Yes如果{αk}\{\alpha_k\}{αk​}满足某些条件的时候该算法也是一种特殊的SA algorithm和stochastic gradient descent algorithm Robbins-Monro algorithm 算法描述 Stochastic approximation (SA): SA代表了一大类的stochastic iterative algorithm用来求解方程的根或者优化问题。与其他求根相比例如gradient-based method SA的强大之处在于它不需要知道目标函数的表达式也不知道它的导数或者梯度表达式。 Robbins-Monro (RM) algorithm: This is a pioneering work in the field of stochastic approximation.著名的stochastic gradient descent algorithm是RM算法的一个特殊形式。It can be used to analyze the mean estimation algorithms introduced in the beginning。 举个例子 问题声明假设我们要求解下面方程的根g(w)0g(w)0g(w)0其中w∈Rw\in \mathbb{R}w∈R是要求解的变量g:R→Rg:\mathbb{R}\rightarrow \mathbb{R}g:R→R是一个函数. 许多问题最终可以转换为这样的求根问题。例如假设J(w)J(w)J(w)是最小化的一个目标函数然后优化问题被转换为g(w)∇wJ(w)0g(w)\nabla_w J(w)0g(w)∇w​J(w)0另外可能面临g(w)cg(w)cg(w)c其中ccc是一个常数这样也可以将其转换为上述等式通过将g(w)−cg(w)-cg(w)−c写为一个新的函数。 那么如何求解g(w)0g(w)0g(w)0 如果ggg的表达式或者它的导数已知那么有许多数值方法可以求解如果函数ggg的表达式是未知的例如the function由一个artificial neural network表示 这样的问题可以使用Robbins-Monro(RM)算法求解wk1wk−akg~(wk,ηk),k1,2,3,...w_{k1}w_k-a_k\tilde{g}(w_k, \eta_k), k1,2,3,...wk1​wk​−ak​g~​(wk​,ηk​),k1,2,3,...其中 wkw_kwk​是root的第k次估计g~(wk,ηk)g(wk)ηk\tilde{g}(w_k,\eta_k)g(w_k)\eta_kg~​(wk​,ηk​)g(wk​)ηk​是第k次带有噪声的观测aka_kak​是一个positive coefficient 函数g(w)g(w)g(w)是一个black box也就是说该算法依赖于数据 输入序列:{wk}\{w_k\}{wk​}噪声输出序列{g~(wk,ηk)}\{\tilde{g}(w_k,\eta_k)\}{g~​(wk​,ηk​)} 这里边的哲学思想不依赖model依靠data这里的model就是指函数的表达式。 收敛性分析 为什么RM算法可以找到g(w)0g(w)0g(w)0的解 首先给出一个直观的例子 g(w)tanh(w−1)g(w)tanh(w-1)g(w)tanh(w−1)g(w)0g(w)0g(w)0的true root是w∗1w*1w∗1初始值w12,ak1/k,ηk0w_12, a_k1/k, \eta_k0w1​2,ak​1/k,ηk​0为简单起见不考虑噪音 在本例中RM算法如下wk1wk−akg(wk)w_{k1}w_k-a_kg(w_k)wk1​wk​−ak​g(wk​) 当ηk0\eta_k0ηk​0的时候g~(wk,ηk)g(wk)\tilde{g}(w_k, \eta_k)g(w_k)g~​(wk​,ηk​)g(wk​)。 模拟仿真结果wkw_kwk​收敛到true root w∗1w*1w∗1。 直观上wk1w_{k1}wk1​比wkw_kwk​更接近于w∗w*w∗ 当wkw∗w_k w*wk​w∗有g(wk)0g(w_k)0g(wk​)0那么wk1wk−akg(wk)wkw_{k1}w_k-a_kg(w_k) w_kwk1​wk​−ak​g(wk​)wk​因此wk1w_{k1}wk1​比wkw_kwk​更接近于w∗w*w∗当wkw∗w_k w*wk​w∗有g(wk)0g(w_k)0g(wk​)0那么wk1wk−akg(wk)wkw_{k1}w_k-a_kg(w_k) w_kwk1​wk​−ak​g(wk​)wk​因此wk1w_{k1}wk1​比wkw_kwk​更接近于w∗w*w∗ 上面的分析是基于直观的但是不够严格。一个严格收敛的结果如下 在RM算法中如果上面的条件满足那么wkw_kwk​就会收敛到w∗w*w∗w∗w*w∗就是g(w)0g(w)0g(w)0的一个解。第一个条件是关于g(w)的梯度要求第二个条件是关于aka_kak​系数的要求第三个条件是关于这个ηk\eta_kηk​就是测量误差的要求。 这三个条件的解释 条件10c1≤∇kg(w)≤c20c_1\le\nabla _k g(w)\le c_20c1​≤∇k​g(w)≤c2​对于所有的www 条件2∑k1∞ak∞\sum_{k1}^\infty a_k\infty∑k1∞​ak​∞且∑k1∞ak2∞\sum_{k1}^\infty a_k^2 \infty∑k1∞​ak2​∞ 条件3E[ηk∣Hk]0\mathbb{E}[\eta _k|\mathcal{H}_k]0E[ηk​∣Hk​]0并且E[ηk2∣Hk]∞\mathbb{E}[\eta _k^2|\mathcal{H}_k]\inftyE[ηk2​∣Hk​]∞ 对第二个条件进行讨论∑k1∞ak2∞, ∑k1∞ak∞\sum_{k1}^\infty a_k^2 \infty \text{ , } \sum_{k1}^\infty a_k\inftyk1∑∞​ak2​∞ , k1∑∞​ak​∞ 首先∑k1∞ak2∞\sum_{k1}^\infty a_k^2 \infty∑k1∞​ak2​∞表明随着k→∞k\rightarrow \inftyk→∞ak→0a_k\rightarrow 0ak​→0为什么这个条件重要呢 因为wk1−wk−akg~(wk,ηk)w_{k1}-w_k-a_k\tilde{g}(w_k, \eta_k)wk1​−wk​−ak​g~​(wk​,ηk​) 如果ak→0a_k\rightarrow 0ak​→0那么akg~(wk,ηk)→0a_k\tilde{g}(w_k, \eta_k)\rightarrow 0ak​g~​(wk​,ηk​)→0因此wk1−wk→0w_{k1}-w_k\rightarrow 0wk1​−wk​→0we need the fact that wk1−wk→0w_{k1}-w_k\rightarrow 0wk1​−wk​→0 如果wkw_kwk​最终收敛如果wk→w∗w_k\rightarrow w*wk​→w∗那么g(wk)→0g(w_k)\rightarrow 0g(wk​)→0和g~(wk,ηk)\tilde{g}(w_k, \eta_k)g~​(wk​,ηk​)由ηk\eta_kηk​确定。 第二∑k1∞ak∞\sum_{k1}^\infty a_k\infty∑k1∞​ak​∞表明aka_kak​不应当太快收敛到0.为什么这个条件重要呢根据w2w1−a1g~(w1,η1)w_2w_1 - a_1\tilde{g}(w_1, \eta_1)w2​w1​−a1​g~​(w1​,η1​), w3w2−a2g~(w2,η2)w_3w_2 - a_2\tilde{g}(w_2, \eta_2)w3​w2​−a2​g~​(w2​,η2​), …, wk1wk−akg~(wk,ηk)w_{k1}w_k - a_k\tilde{g}(w_k, \eta_k)wk1​wk​−ak​g~​(wk​,ηk​)得出w∞−w1∑k1∞akg~(wk,ηk)w_\infty-w_1\sum_{k1}^{\infty} a_k\tilde{g}(w_k, \eta_k)w∞​−w1​k1∑∞​ak​g~​(wk​,ηk​)。假定w∞w∗w_\inftyw*w∞​w∗。如果∑k1∞ak∞\sum_{k1}^\infty a_k\infty∑k1∞​ak​∞那么∑k1∞akg~(wk,ηk)\sum_{k1}^\infty a_k\tilde{g}(w_k, \eta_k)∑k1∞​ak​g~​(wk​,ηk​)可能是有界的。然后如果初始猜测w1w_1w1​任意选择远离w∗w*w∗那么上述等式可能是不成立的invalid。 那么问题来了什么样的ak{a_k}ak​能够满足这样两个条件呢∑k1∞ak∞\sum_{k1}^\infty a_k\infty∑k1∞​ak​∞且∑k1∞ak2∞\sum_{k1}^\infty a_k^2 \infty∑k1∞​ak2​∞ 一个典型的序列是ak1ka_k\frac{1}{k}ak​k1​ 在数学上lim⁡n→∞(∑k1n1n−ln⁡n)k\lim _{n\rightarrow \infty}(\sum _{k1}^n\frac{1}{n}-\ln n) kn→∞lim​(k1∑n​n1​−lnn)k其中k≈0.577k\approx 0.577k≈0.577称为Euler-Mascheroni常数也称为Euler常数另一个数学上的结论是∑k1∞1k2π26∞\sum _{k1}^\infty\frac{1}{k^2}\frac{\pi^2}{6}\inftyk1∑∞​k21​6π2​∞极限∑k1∞\sum _{k1}^\infty∑k1∞​在数论中也有一个特定的名字Basel problem。 如果上面三个条件不满足则RM算法将不再工作例如 在许多RL算法中aka_kak​经常选择一个非常小的常数sufficiently small constant尽管第二个条件不满足但是该RM算法仍然可以工作。 将RM算法用于mean estimation 回顾本文最初的mean estimation算法wk1wk−αk(wk−xk)w_{k1}w_k-\alpha_k(w_k-x_k)wk1​wk​−αk​(wk​−xk​) 我们知道 如果αk1/k\alpha_k1/kαk​1/k那么wk11/k∑i1kxiw_{k1}1/k\sum_{i1}^k x_iwk1​1/k∑i1k​xi​如果αk\alpha_kαk​不是1/k1/k1/k收敛性没办法分析。 现在我们证明这个算法是一个特殊的RM算法它的收敛性就能够得到了。 1考虑一个函数g(w)≐w−E[X]g(w)\doteq w-\mathbb{E}[X]g(w)≐w−E[X]我们的目标是求解g(w)0g(w)0g(w)0这样我们就可以得到E[X]\mathbb{E}[X]E[X] 2我们不知道X但是可以对X进行采样因此我们得到的观察是g~(w,x)≐w−x\tilde{g}(w, x)\doteq w-xg~​(w,x)≐w−x注意 3求解g(x)0g(x)0g(x)0的RM算法是wk1wk−αkg~(wk,ηk)wk−αk(wk−xk)w_{k1}w_k-\alpha_k \tilde{g}(w_k, \eta_k)w_k-\alpha_k(w_k-x_k)wk1​wk​−αk​g~​(wk​,ηk​)wk​−αk​(wk​−xk​),这就是之前给出的mean estimation算法。 Dvoretzkys convergence theorem 这是一个比RM定理更一般化的结论可以用来证明RM定理它可以直接用来分析mean estimation problem它的一个扩展可以用来分析Q-learning和TD learning算法。 Stochastic gradient descent stochastic gradient descent(SGD)算法在机器学习和强化学习的许多领域中广泛应用SGD也是一个特殊的RM算法而且mean estimation algorithm是一个特殊的SGD算法。 算法描述 假设我们的目标是求解下面优化问题:min⁡wJ(w)E[f(w,X)]\min_{w} J(w)\mathbb{E}[f(w, X)]wmin​J(w)E[f(w,X)] www是被优化的参数XXX是一个随机变量The expection实际上就是针对这个XXX进行计算的www和XXX可以是标量或者向量函数f(⋅)f(\cdot)f(⋅)是一个标量。 有三种方法求解 Method 1: gradient descent (GD) 问题是the expected value is difficult to obtain。 Method 2: batch gradient descent (BGD) 问题是对于每个wkw_kwk​在每次迭代中需要许多次采样。 Method 3: stochastic gradient descent (SGD): SGD与前面两种算法相比 与gradient descent算法相比将true gradient E[∇wf(wk,X)]\mathbb{E}[\nabla _w f(w_k, X)]E[∇w​f(wk​,X)]替换为stochastic gradient ∇wf(wk,xk)\nabla _w f(w_k, x_k)∇w​f(wk​,xk​)与batch gradient descent算法相比令n1n1n1。 示例和应用 考虑下面的一个优化问题 其中 有三个练习 证明最优解是w∗E[X]w*\mathbb{E}[X]w∗E[X]用GD算法求解这个问题用SGD算法求解这个问题 首先看第一个练习 对J(w)J(w)J(w)求梯度使其等于0即可得到最优解因此有∇wJ(w)0\nabla _w J(w)0∇w​J(w)0然后根据公式得到E[∇wf(w,X)]0\mathbb{E}[\nabla_wf(w,X)]0E[∇w​f(w,X)]0然后得到E[w−X]0\mathbb{E}[w-X]0E[w−X]0由于w是一个常数因此wE[X]w\mathbb{E}[X]wE[X]。 第二个联系的答案是 相应的使用SGD算法求解上面问题 收敛性分析 从GD到SGD ∇wf(wk,xk)\nabla _w f(w_k, x_k)∇w​f(wk​,xk​)被视为E[∇wf(wk,X)]\mathbb{E}[\nabla _w f(w_k, X)]E[∇w​f(wk​,X)]的一个noisy measurement 不管怎样由于∇wf(wk,xk)≠E[∇wf(wk,X)]\nabla _w f(w_k, x_k)\ne \mathbb{E}[\nabla _w f(w_k, X)]∇w​f(wk​,xk​)E[∇w​f(wk​,X)]是否基于SGD随着k趋近于无穷wk→w∗w_k\rightarrow w*wk​→w∗答案是肯定的。 这里的方式证明SGD是一个特殊的RM算法自然地得到收敛性。SGD的目标是最小化J(w)E[f(w,X)]J(w)\mathbb{E}[f(w, X)]J(w)E[f(w,X)] 这个问题可以转换为一个root-finding问题∇wJ(W)E[∇wf(w,X)]0\nabla_w J(W)\mathbb{E}[\nabla _w f(w, X)]0∇w​J(W)E[∇w​f(w,X)]0 令g(w)∇wJ(W)E[∇wf(w,X)]g(w)\nabla_w J(W)\mathbb{E}[\nabla _w f(w, X)]g(w)∇w​J(W)E[∇w​f(w,X)]那么SGD的目标就是找到满足g(w)0g(w)0g(w)0的根。 这里使用RM算法求解因为g(w)的表达式未知所以要用到数据。what we can measure is 然后RM算法求解g(w)0g(w)0g(w)0就得到 It is exacely the SGD algorithm因此SGD是一个特殊的RM算法。 因为SGD算法是一个特殊的RM算法它的收敛性遵从 收敛模式 问题由于stochastic gradient是随机的那么approximation是不精确的是否SGD的收敛性是slow或者random 为了回答这个问题我们考虑在stochastic和batch gradients之间的一个relative error: 由于E[∇wf(w∗,X)]0\mathbb{E}[\nabla_w f(w*, X)]0E[∇w​f(w∗,X)]0我们有 其中后面等式的分母使用了一个mean value theorem中值定理并且w~k∈[wk,w∗]\tilde{w}_k\in [w_k, w*]w~k​∈[wk​,w∗] 假设fff是严格凸的满足∇w2f≥c0\nabla_w^2f \ge c 0∇w2​f≥c0对于所有的w,Xw, Xw,X其中ccc是一个positive bound。 然后δk\delta_kδk​的证明就变为了 然后把这个分母的性质带入刚才的relative error公式就得到 再看上面的式子 这个公式也表明了SGD的一个有趣的收敛模式 relative error δk\delta_kδk​与∣wk−w∗∣|w_k-w*|∣wk​−w∗∣成反比当∣wk−w∗∣|w_k-w*|∣wk​−w∗∣比较大时δk\delta_kδk​较小SGD的表现与GD相似behaves like当wkw_kwk​接近w∗w*w∗相对误差可能较大收敛性在w∗w*w∗的周边存在较多的随机性。 考虑一个例子 Setup: Result: MBGD:mini-batch gradient descent 尽管在初始的时候mean远离true value但是SGD estimate can approach the neighborhood of the true value fast.当estimate接近true value它具有一定程度的随机性但是仍然逐渐靠近the true value 一个确定性公式 在之前介绍的SGD的formulation中涉及random variable和expectation。但是在学习其他材料的时候可能会遇到一个SGD的deterministic formulation不涉及任何random variables。 同样地考虑这样一个优化问题min⁡wJ(w)1n∑i1nf(w,xi)\min_w J(w)\frac{1}{n}\sum_{i1}^n f(w, x_i)wmin​J(w)n1​i1∑n​f(w,xi​) f(w,xi)f(w, x_i)f(w,xi​)是一个参数化的函数www是需要被优化的参数一组实数{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​其中xix_ixi​不必是任意random variable的一个采样反正就是一组实数。 求解这个问题的gradient descent算法如下 假设这样的一个实数集合比较大每次只能得到一个xix_ixi​在这种情况下可以使用下面的迭代算法wk1wk−αk∇wf(wk,xk)w_{k1}w_k-\alpha_k \nabla_w f(w_k, x_k)wk1​wk​−αk​∇w​f(wk​,xk​) 那么问题来了 这个算法是SGD吗它没有涉及任何random variable或者expected values.我们该如何定义这样一组实数{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​? 是应该将它们按照某种顺序一个接一个地取出还是随机地从这个集合中取出 回答上面问题的思路是我们手动地引入一个random variable并将SGD从deterministic formulation转换为stochastic formulation。 具体地假设一个XXX是定义在集合{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​的random variable。假设它的概率分布是均匀的即p(Xxi)1/np(Xx_i)1/np(Xxi​)1/n 然后这个deterministic optimization problem变成了一个stochastic one 上面等式的后面是strict而不是approximate。因此这个算法是SGD。The estimate converges if xkx_kxk​ is uniformly and independently sampled from {xi}i1n\{x_i\}_{i1}^n{xi​}i1n​. xkx_kxk​ may repreatedly take the same number in {xi}i1n\{x_i\}_{i1}^n{xi​}i1n​ since it is sampled randomly。 BGD, MBGD和SGD 假设我们想要最小化J(w)E[f(w,X)]J(w)\mathbb{E}[f(w,X)]J(w)E[f(w,X)]给定一组来自XXX的随机采样{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​。分别用BGD,SGD,MBGD求解这个问题 在BGD算法中 在MBGD算法中 在SGD算法中 MBGD与BGD和SGD进行比较 与SGD相比MBGD具有更少的随机性因为它使用更多的采样数据而不是像SGD中那样仅仅使用一个。与BGD相比MBGD在每次迭代中不要求使用全部的samples这使其更加灵活和高效if m1, MBGD变为SGDif mn, MBGD does NOT become BGD strictly speaking因为MBGD使用n个样本的随机采样而BGD使用所有n个样本。特别地MBGD可能使用{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​中的一个值很多次而BGD使用每个数值一次。 举个例子给定一些数值{xi}i1n\{x_i\}_{i1}^n{xi​}i1n​我们的目标是计算平均值mean: xˉ∑i1nxi/n\bar{x}\sum_{i1}^n x_i/nxˉ∑i1n​xi​/n。这个问题可以等价成一个优化问题min⁡wJ(w)12n∑i1n∣∣w−wi∣∣2\min_w J(w)\frac{1}{2n}\sum_{i1}^n||w-w_i||^2wmin​J(w)2n1​i1∑n​∣∣w−wi​∣∣2分别用三个算法求解这个优化问题 其中xˉk(m)∑j∈Lkxj/m\bar{x}_k^{(m)}\sum_{j\in \mathcal{L}_k} x_j/mxˉk(m)​∑j∈Lk​​xj​/m 更进一步地如果αk1/k\alpha_k1/kαk​1/k上面等式可以求解为 BGD在每一步的estimate是exactly the optimal solution w∗xˉw*\bar{x}w∗xˉMBGD的estimate比SGD更快靠近mean因为xˉk(m)\bar{x}_k^{(m)}xˉk(m)​已经是一个平均。 仿真结果令αk1/k\alpha_k1/kαk​1/k给定100个点使用不同的mini-batch size得到不同的收敛速度 总结 Mean estimation: 使用{xk}\{x_k\}{xk​}计算E[X]\mathbb{E}[X]E[X]wk1wk−1k(wk−xk)w_{k1}w_k-\frac{1}{k}(w_k-x_k)wk1​wk​−k1​(wk​−xk​)RM算法使用{g~(wk,ηk)}\{\tilde{g}(w_k,\eta_k)\}{g~​(wk​,ηk​)}求解g(w)0g(w)0g(w)0wk1wk−akg~(wk,ηk)w_{k1}w_k-a_k\tilde{g}(w_k,\eta_k)wk1​wk​−ak​g~​(wk​,ηk​)SGD算法使用{∇wf(wk,xk)}\{\nabla_wf(w_k, x_k)\}{∇w​f(wk​,xk​)}最小化J(w)E[f(w,X)]J(w)\mathbb{E}[f(w,X)]J(w)E[f(w,X)] wk1wk−αk∇wf(wk,xk)w_{k1}w_k-\alpha_k \nabla_wf(w_k, x_k)wk1​wk​−αk​∇w​f(wk​,xk​) 内容来源 《强化学习的数学原理》 西湖大学工学院赵世钰教授 主讲《动手学强化学习》 俞勇 著
http://www.w-s-a.com/news/601724/

相关文章:

  • 做设计的搜素材上什么网站好设计公司画册设计哪家好
  • 视频网站开发需要什么语言做ui设计一年后年薪多少
  • 网站服务器维护费用统一企业官方网站
  • 网站如何调用手机淘宝做淘宝客呼和浩特网站运营公司
  • 做推广可以上那些网站网页游戏排行榜2014前十名
  • 国外网站备案流程企业网站 流程
  • 重庆网站建设letide童程童美少儿收费价目表
  • 苏州建站仿站东莞排名推广
  • 大中小网站的区分wordpress个人主页主题
  • 商务网站建设的可行性分析包括小程序源码网免费
  • 永州网站建设收费标准重庆网站建设公司夹夹虫专业
  • python做网站多少钱wordpress 2.8
  • 深圳网站平台网站开发工作程序怎么写
  • 自己可以接单做网站吗wordpress 添加自定义按钮
  • 网站首页权重宣传页制作
  • 智能网站建设软件有哪些方面网页的建设
  • 石铜路网站建设生鲜电商网站开发
  • 怎么提高网站加载速度慢网站的轮播怎么做的
  • 网络网站推广优化建筑工程教育网官方网站
  • 旅行社网站策划做网站编辑好还是美工好
  • 珠海做网站找哪家好在线磁力搜索神器
  • 做网站优化有必要wordpress导航栏字体
  • 中山网站建设半江红沈阳免费网站建站模板
  • 工信部网站备案管理系统网站备案负责人 更换
  • 我要做个网站该怎么做怎么做电商平台网站
  • wordpress教程 网站标题莱芜大众网
  • 网站建设业务终止合作范本主机公园wordpress
  • 口碑好企业网站建设网站建设与什么专业有关
  • 助贷获客系统快速优化排名公司推荐
  • 重庆做网站优化推广的公司企业网站如何进行定位