国外视频设计网站,建网站的详细案例,wordpress 优酷免广告插件,杭州点餐app开发文章目录 机器学习算法的目的是找到一个假设来拟合数据。这通过一个优化过程来实现#xff0c;该过程从预定义的 hypothesis class#xff08;假设类#xff09;中选择一个假设来最小化目标函数。具体地说#xff0c;我们想找到 arg min h ∈ H 1 n ∑ i 1 n ℓ ( X i… 文章目录 机器学习算法的目的是找到一个假设来拟合数据。这通过一个优化过程来实现该过程从预定义的 hypothesis class假设类中选择一个假设来最小化目标函数。具体地说我们想找到 arg min h ∈ H 1 n ∑ i 1 n ℓ ( X i , Y i , h ) \argmin\limits_{h \in H} \frac{1}{n} \sum\limits_{i1}^n \ell(X_i,Y_i,h) h∈Hargminn1i1∑nℓ(Xi,Yi,h)。其中 H H H 是预定义的假设类。
假设类 H H H是一个函数集其中每个函数都尝试从输入特征映射到输出标签 H { h 1 , h 2 , … } H \{ h_1, h_2, \dots \} H{h1,h2,…}。通常 H H H 由一个特定的算法或模型结构定义如线性回归、决策树等。
首先0-1损失函数是最直接的分类误差度量。对于给定的分类器 h h h它只是简单地计算误分类的数据点的数量。数学上这定义为 arg min h E [ 1 Y ≠ s i g n ( h ( X ) ) ] \argmin\limits_{h} \mathbb{E}[1_{Y \neq sign(h(X))}] hargminE[1Ysign(h(X))]。但我们通常遇到的问题是
真实数据的分布 P ( X , Y ) P(X,Y) P(X,Y) 是未知的因此我们不能直接计算上述期望。0-1损失在计算上是困难的因为它是不连续的、非凸的这使得优化变得复杂。
大数定律描述了随机变量的样本均值与整体均值之间的关系。它确保了当样本大小趋于无穷大时样本均值趋于整体均值。更形式化地说考虑一个随机变量 X X X其期望值为 E [ X ] \mathbb{E}[X] E[X]。对于 X X X 的 n n n 个独立同分布的样本 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,…,Xn它们的样本均值定义为 X n ˉ 1 n ∑ i 1 n X i \bar{X_n} \frac{1}{n} \sum_{i1}^{n} X_i Xnˉn1∑i1nXi。当 n → ∞ n \rightarrow \infty n→∞ 时, X n ˉ → E [ X ] \bar{X_n} \rightarrow \mathbb{E}[X] Xnˉ→E[X]。
通过大数定律我们可以使用这些样本来估计某些与分布相关的数量例如期望损失。假设我们的目标是估计由假设 h h h 引起的期望损失 E [ 1 Y ≠ sign ( h ( X ) ) ] \mathbb{E}[1_{Y \neq \text{sign}(h(X))}] E[1Ysign(h(X))]。我们可以使用来自真实分布的样本 D \mathcal{D} D 来估计这个期望 1 n ∑ i 1 n 1 Y i ≠ sign ( h ( X i ) ) \frac{1}{n} \sum_{i1}^{n} 1_{Y_i \neq \text{sign}(h(X_i))} n1i1∑n1Yisign(h(Xi))
随着样本数量 n n n 的增加上述估计将接近真实的期望损失。
为了在实践中使问题变得可解我们使用所谓的 surrogate loss function替代损失函数它们在优化上更容易处理但仍旨在近似0-1损失函数。 Hinge loss合页损失这是支持向量机中使用的损失函数。 ℓ ( X , Y , h ) max { 0 , 1 − Y h ( X ) } \ell(X,Y,h) \max \{0,1−Yh(X)\} ℓ(X,Y,h)max{0,1−Yh(X)} Logistic loss逻辑损失这是逻辑回归中使用的。它对于异常值更为稳健并且为概率提供了良好的估计。 Least square loss最小二乘损失主要在回归问题中使用。 Exponential loss指数损失是AdaBoost算法中使用的损失函数。
大多数流行的替代损失函数都是为了在大样本极限下模拟0-1损失函数的效果。这些被称为 classification-calibrated 分类校准的替代损失函数。这意味着如果训练数据无穷大则使用这些损失函数训练的分类器在0-1损失上的表现将与真正的最佳分类器一致。
给定一个代理损失函数 ℓ \ell ℓ 和相应的函数 ϕ \phi ϕ 使得 ϕ ( Y h ( X ) ) ℓ ( X , Y , h ) \phi(Yh(X)) \ell(X, Y, h) ϕ(Yh(X))ℓ(X,Y,h)。这里 Y Y Y 是标签取值为 ( − 1 , 1 ) (-1, 1) (−1,1)而 h ( X ) h(X) h(X) 是分类器对输入 X X X 的预测得分。为了检查 ℓ \ell ℓ 是否是分类校准的我们通常检查以下条件: ϕ \phi ϕ 是凸的。 ϕ \phi ϕ 在0处可导并且 ϕ ′ ( 0 ) 0 \phi(0) 0 ϕ′(0)0。
满足上述条件意味着在大部分情况下对于一个给定的数据点分类器 h h h 使代理损失最小化时也会使0-1损失最小化。
例如考虑Hinge损失 ℓ hinge ( X , Y , h ) max { 0 , 1 − Y h ( X ) } \ell_{\text{hinge}}(X,Y,h) \max \{ 0, 1-Yh(X) \} ℓhinge(X,Y,h)max{0,1−Yh(X)}
对应的 ϕ \phi ϕ 函数为 ϕ ( z ) max { 0 , 1 − z } \phi(z) \max \{ 0, 1-z \} ϕ(z)max{0,1−z}
这个函数在 z 1 z1 z1 处是不可导的但是在 z 0 z0 z0 处是可导的且其导数小于0因此Hinge损失是分类校准的。
现在可以考虑以下两个分类器的定义 h s h_s hs 是基于有限训练数据和替代损失函数的最优分类器。 h c h_c hc 是基于整个数据分布和0-1损失函数的最优分类器。
使用替代损失函数和训练数据我们可以找到 h s h_s hs h s arg min h 1 n ∑ i 1 n ℓ ( X i , Y i , h ) h_s \argmin\limits_{h} \frac{1}{n} \sum\limits_{i1}^n \ell(X_i,Y_i,h) hshargminn1i1∑nℓ(Xi,Yi,h)
与此同时如果我们知道整个数据的分布我们可以找到 h c h_c hc h c arg min h E [ 1 Y ≠ sign ( h ( X ) ) ] h_c \argmin\limits_{h} \mathbb{E}[1_{Y \neq \text{sign}(h(X))}] hchargminE[1Ysign(h(X))]
当我们的训练数据量无限大时使用替代损失函数得到的 h s h_s hs 将与使用0-1损失函数得到的 h c h_c hc越来越接近。这可以通过以下公式表示 E [ 1 Y ≠ sign ( h S ( X ) ) ] ⟶ n → ∞ E [ 1 Y ≠ sign ( h c ( X ) ) ] \mathbb{E}[1_{Y \neq \text{sign}(h_S(X))}] \overset{n \rightarrow \infty}{\longrightarrow} \mathbb{E}[1_{Y \neq \text{sign}(h_c(X))}] E[1Ysign(hS(X))]⟶n→∞E[1Ysign(hc(X))]
这意味着当我们基于有限的样本数据集优化代理损失时我们实际上是在优化该数据集上的经验损失。大数定律保证随着样本数的增加这个经验损失的期望会接近于真实的期望损失。同时如果我们的代理损失是分类校准的那么优化这个代理损失将隐式地优化0-1损失。当训练数据的大小趋向于无穷大时通过最小化替代损失函数得到的分类器的期望0-1损失将趋近于最优的0-1损失。
当替代损失函数是凸的且光滑时我们可以使用一系列的优化算法如梯度下降、牛顿法等来解决以下问题 h arg min h ∈ H 1 n ∑ i 1 n ℓ ( X i , Y i , h ) h \argmin\limits_{h \in H} \frac{1}{n} \sum\limits_{i1}^n \ell(X_i,Y_i,h) hh∈Hargminn1i1∑nℓ(Xi,Yi,h)