django个人博客网站开发部署源码,如何做vip电影解析网站,潍坊专业网站建设多少钱,迷你世界怎么做网站期文章目录 1、集成学习a.BaggingBagging的工作原理1. 自助采样#xff08;Bootstrap Sampling#xff09;2. 训练多个基学习器3. 聚合预测 Bagging的优点Bagging的缺点应用场景 b.Boosting 2、决策树3、随机森林随机森林的核心概念1. 集成学习2. 决策树 构建随机森林的步骤1. … 文章目录 1、集成学习a.BaggingBagging的工作原理1. 自助采样Bootstrap Sampling2. 训练多个基学习器3. 聚合预测 Bagging的优点Bagging的缺点应用场景 b.Boosting 2、决策树3、随机森林随机森林的核心概念1. 集成学习2. 决策树 构建随机森林的步骤1. 自助采样Bootstrap sampling2. 训练多个决策树3. 聚合预测 随机森林的随机性的两个体现随机森林的优势 记忆名词 Bagging、自助采样 随机森林、基模型、集成学习、特征随机性
1、集成学习
集成学习是一种机器学习范式它通过构建并组合多个学习器来提高预测性能。集成学习中最主要和最常用的两种技术是 Bagging 和 Boosting。不过除了这两种还有另一种较为常见的集成方法称为 Stacking。下面对这三种主要的集成学习技术的区别进行简要介绍 主要区别
Bagging独立并行地训练每个基模型并且每个模型都得到同等的权重。目标是减少方差提高稳定性。这些基学习器通常是同一种类型的机器学习算法如决策树是Bagging中最常用的基学习器。Boosting顺序训练每个基模型每个模型学习前一个模型的残差。目标是减少偏差提高预测的准确性。Stacking利用不同模型的多样性通过一个高层模型来整合各个基模型的输出。目标是利用不同模型的优势提高整体性能。
在实际应用中选择哪一种集成技术取决于特定任务的需求、数据特性以及所追求的性能指标。
a.Bagging
Bagging自助聚合 是一种集成学习技术用于提高机器学习算法的稳定性和准确性尤其是对于决策树模型。全称为“Bootstrap Aggregating”Bagging通过组合多个模型的预测结果来减少方差通常能有效防止过拟合。
Bagging的工作原理
1. 自助采样Bootstrap Sampling
Bagging的核心是自助采样这是一种随机采样技术。从原始数据集中随机选择样本允许重复即同一个样本可以被选中多次。这样每次采样都能生成一个大小等于原数据集的新数据集但由于有放回的采样方式这些新数据集彼此之间会有所不同。
相当于对每个基模型都有一个原数据集大小的数据集这个数据集是在原数据集中有放回地随机抽取的。每个基模型对原数据集有不同视角减少了过拟合的现象。
2. 训练多个基学习器
使用自助采样得到的每个独立的数据子集训练一个基学习器。这些基学习器通常是同一种类型的机器学习算法如决策树是Bagging中最常用的基学习器。
3. 聚合预测
当所有的基学习器都被训练完成后它们的预测将被组合起来形成最终的预测结果。对于分类问题最常用的聚合方法是投票机制多数投票对于回归问题则通常采用平均预测。
Bagging的优点
减少方差通过在不同的数据子集上训练并聚合多个模型的预测Bagging能显著减少预测的方差增强模型的泛化能力。避免过拟合相较于单个模型Bagging的集成方法能更好地避免过拟合问题。并行化由于每个基模型的训练是独立的Bagging方法非常适合并行处理提高训练效率。
Bagging的缺点
增加计算负担需要训练多个基学习器对计算资源的需求较高。模型解释性降低虽然单个决策树等基学习器容易理解但整个Bagging模型由于涉及多个基学习器因此整体解释性不如单个模型。
应用场景
Bagging是随机森林的基础也可以用于其他类型的模型。除了决策树外它也可以用于神经网络、线性回归等多种机器学习算法中尤其是那些倾向于对训练数据过拟合的算法。
总之Bagging是一个强大的集成技术能有效提升模型在各种数据集上的表现尤其是在处理那些具有高方差的复杂数据集时。
b.Boosting
将在讲述XGB和LGB时进行解释。
2、决策树
看纯文字的话决策树这块是最难理解的因此可以结合其他资料
花哩花哩【五分钟机器学习】可视化的决策过程决策树 Decision Tree
机器学习常见知识点 2决策树
3、随机森林
哔哩哔哩【五分钟机器学习】随机森林RandomForest看我以弱搏强
随机森林是一种流行且强大的机器学习方法用于分类和回归任务。它属于集成学习领域具体来说是基于决策树的Bagging自助聚合技术。随机森林通过构建多个决策树并结合它们的预测结果来提高整体模型的准确性和鲁棒性。
根据自助聚合集成学习方法Bagging随机森林就相当于是Bagging方法中基模型是决策树的Bagging方法。不过值得注意的是随机森林对决策树实现的不同之处
随机森林的核心概念
1. 集成学习
随机森林基于集成学习原理即将多个学习器结合起来以期望得到比单一模型更好的预测效果。集成方法通常比单一模型更稳健因为它们汇集了多个模型的决策从而减少了过拟合的风险。
2. 决策树
随机森林的基本构件是决策树这是一种树形结构其中每个内部节点表示一个属性上的测试每个分支代表一个测试输出而每个叶节点代表一种类别在分类问题中或一个连续值在回归问题中。决策树容易理解和实现但单独使用时容易过拟合。
构建随机森林的步骤
先设置超参数即多少棵树分几层
1. 自助采样Bootstrap sampling
随机森林中的每个决策树都是通过从原始训练数据集中进行随机有放回抽样即自助采样来构建的子集。这意味着同一数据点可以在同一个树的训练数据中多次出现。
2. 训练多个决策树
使用自助采样得到的每个子集训练一个决策树。在构建这些决策树时随机森林引入了另一个随机性层次在每个分裂点不是查看所有特征以找到最佳分裂而是随机选择特征的一个子集并基于这个子集找到最佳分裂。这一策略被称为特征随机性feature bagging。
3. 聚合预测
一旦所有决策树都被训练完成它们的预测将被组合起来形成模型的最终输出。在分类任务中这通常通过多数投票机制完成即森林中的大多数树选择的类别成为最终预测。在回归任务中通常取所有树的预测输出的平均值。
随机森林的随机性的两个体现
自助采样数据级的随机性自助采样来为每棵树生成不同的训练子集。特征随机性特征级的随机性在进行每次分裂时不是从所有特征中选择最优分裂特征而是从随机选定的特征子集中选择最优分裂特征。
随机森林的优势
准确性高通过结合多个决策树的预测随机森林通常能达到很高的准确率。对于过拟合的鲁棒性相对于单个决策树随机森林更不容易过拟合。可用于特征选择随机森林能够提供关于特征重要性的洞见这对于理解数据中哪些特征是影响结果的关键因素非常有用。灵活性能处理分类和回归任务同时不需要特征缩放可以很好地处理二元特征、连续特征以及缺失数据。 随机森林是一种基于决策树的Bagging集成学习技术一般情况下它通过自助采样为每颗决策树选择样本空间在训练每颗决策树的时候它也具有随机性即它随机选择特征子空间在这个特征子空间里使用基尼不准度的方法选取最优特征进行决策树节点分裂。 总的来说随机森林的随机性体现在两个方面第一个是在样本空间的选择上第二个是在决策树分裂时特征空间的选择上 扩展一下袋外误差OOB估计由于自助采样某些实例可能不会被包括在某棵树的训练集中。这些袋外实例可以用作验证集提供模型性能的无偏估计。