买国外空间哪个网站好,wordpress调用列表,小说网站开发,怀化最新消息今天文章目录 #x1f4da;线性回归算法流程#x1f4da;Bias and variance#x1f4da;过拟合欠拟合#x1f4da;逻辑回归算法流程 #x1f4da;线性回归算法流程 ybwx 使用loss function L来评估函数的好坏 从而我们要选择使L最小的模型参数w,b 使用梯度下降的方法… 文章目录 线性回归算法流程Bias and variance过拟合欠拟合逻辑回归算法流程 线性回归算法流程 ybw·x 使用loss function L来评估函数的好坏 从而我们要选择使L最小的模型参数w,b 使用梯度下降的方法 从而求导得
Bias and variance
error原因——bias模型偏差和variance数据方差:
数学原理 随机变量x的均值为 μ \mu μ方差为 σ 2 \sigma^2 σ2随机采样N个点其均值不等于 μ \mu μ但是期望等于 μ \mu μ是无偏的 均值的方差是 σ 2 / N \sigma^2/N σ2/NN个点的方差记为 s 2 s^2 s2,方差的期望为 ( N − 1 ) / N ⋅ σ 2 (N-1)/N·\sigma^2 (N−1)/N⋅σ2不等于 σ 2 \sigma^2 σ2用bias表示整体距离实际值的距离用variance表示点的分散程度 每次采样一个训练集训练一个模型采样100次 简单模型模型直接的variance很小但是bias可能略大 复杂模型variance很大但是bias会小 模型会更拟合数据点各个模型直接的差别很大所以简单的模型受采样数据的影响更小 模型分析 我们对每个模型f*取均值看是否接近真实的模型f如果差得远则bias大接近则bias小大bias小variance可能是欠拟合而小bias大variance可能是过拟合。如果数据无法很好的拟合训练集则会有大bias欠拟合如果可以很好拟合训练集但是在测试集上表现不好会有大的variance过拟合。 解决方法 对于大bias欠拟合来说可以重新选择模型增加输入特征或者是使用更复杂的模型或者进行交叉验证对于大variance过拟合来说可以增加数据集的数量或者是引入正则项在bias和variance之间存在trade-off可以选择模型使得total-error最小即可。
过拟合欠拟合
欠拟合 定义模型无法捕捉数据中的规律和复杂性表现为训练误差和测试误差都较高。原因模型的复杂度不够无法很好地拟合数据。解决方法提高模型复杂度、增加特征数量、增加模型的学习能力等。 过拟合 定义模型过度拟合了训练数据的噪声和细节表现为在训练集上表现良好在测试集上表现较差。原因模型复杂度过高导致模型过度适应训练数据的特征和噪声。解决方法降低模型复杂度、增加数据量、采用正则化方法如L1、L2正则化等。 改进方法 交叉验证通过交叉验证来选择合适的模型复杂度同时避免过拟合和欠拟合。特征选择选取对模型预测有用的特征在避免过多无用特征的情况下消除噪声的影响。正则化通过L1或L2正则化限制模型参数的大小防止模型过拟合。增加数据量增加数据量可以帮助模型更好地捕捉数据的规律减少模型的过拟合情况。集成学习使用集成学习方法如bagging、boosting等可以在一定程度上减小模型的过拟合风险。 关于交叉验证 交叉验证是一种评估模型性能和泛化能力的统计学方法。它通过反复地将数据集划分为训练集和验证集在训练集上训练在验证集上测试来评估模型的性能。常见的交叉验证方法包括k折交叉验证、留一交叉验证等。在k折交叉验证中数据集被随机分成k个大小相似的互斥子集每个子集都尽可能保持数据分布的一致性。然后进行k次模型训练和测试每次选择一个子集作为验证集其余的k-1个子集作为训练集取结果最好的作为最终模型。交叉验证的目的是 评估模型的性能通过交叉验证可以更准确地评估模型的性能而不会受到单次划分数据带来的偶然性影响。泛化能力交叉验证可以更好地评估模型的泛化能力即模型对未见过的数据的适应能力。另外对于数据较少的情况下交叉验证可以最大限度地利用有限的数据减小因训练集和测试集的划分不同导致评估性能的差异。在模型选择以及调参时也非常有用可以帮助选择最优模型并提高模型的性能。
逻辑回归算法流程 分类即输入一个样本判断其类别损失函数为 使用sigmoid函数将概率划分到[0,1]之间 使用交叉熵损失函数的方法找到最优的w和b便于求导取-log乘积变为求和 然后将f函数全部代回对w求导找最优解,求导后的结果为 求导之后可知f1y1时f0y0时cross Entropy最小从而wx-正无穷y1wx-负无穷y0 使用逻辑回归进行多分类的话sigmoid函数变为 所有的y求和为1y表示第i类的概率是softmax操作softmax就是把一些输入映射为0-1之间的实数并且归一化保证和为1。 逻辑回归只能对线性可分的数据有闭式解对于线性不可分的数据分类能力很差可以进行特征转化从原特征映射到新的特征空间然后在新的特征空间进行分类。 ⭐️补充博客
单变量线性回归多变量线性回归逻辑回归优化算法 | 评估方法