做婚礼邀请函网站,一家专门做男人的网站,微信小程序线上商城怎么申请,临清轴承网站建设文章目录 决策树算法1、决策树树状图2、选择最优决策条件3、决策树算法过程→白话决策树原理决策树构建的基本步骤常见的决策树算法决策树的优缺点 【五分钟机器学习】可视化的决策过程#xff1a;决策树 Decision Tree 关键词记忆#xff1a; 纯度、选择最优特征分裂、熵、基… 文章目录 决策树算法1、决策树树状图2、选择最优决策条件3、决策树算法过程→白话决策树原理决策树构建的基本步骤常见的决策树算法决策树的优缺点 【五分钟机器学习】可视化的决策过程决策树 Decision Tree 关键词记忆 纯度、选择最优特征分裂、熵、基尼不准度、均方误差
决策树算法
1、决策树树状图 2、选择最优决策条件 3、决策树算法过程
决策树是一种常用于分类和回归的监督学习算法。它模拟了人类决策过程的思维方式通过构建一个树形结构其中每个内部节点代表一个属性上的判断每个分支代表该判断的结果而每个叶节点代表一个预测结果。下面是关于决策树的详细解释包括其构建过程和常见算法。
→白话决策树原理
分类问题
在分类问题上首先整个数据集是根结点然后选择最优特征进行分割数据集即对数据集进行分类这个选择的最优特征一般是使得分割后的不同子集纯度更高的特征子集然后依次对每一个分裂后的节点递归分裂直到每个叶节点达到一个标准或者深度达到限制条件。 根据说的选择最优决策条件我们可以知道根据不同指标进行数据集划分得到的树深度和性能是不一样的。决策树通过某种标准如信息增益、信息增益比、基尼不纯度等来评估每个特征的分割效果。这个标准通常旨在选择能最大化子集纯度的特征。 信息增益选择使得结果集熵减最大的特征。基尼不纯度选择最小化分割后各节点基尼不纯度的特征。随机森林分类时使用 在实际应用中决策树的构建不仅是为了提高模型在训练数据上的性能更重要的是要保证模型对未知数据的泛化能力。因此常常需要通过剪枝技术来减少模型的过拟合风险。剪枝可以在树完全生成后进行后剪枝也可以在构建过程中进行预剪枝。
回归问题
分类问题和回归问题不一样的是选择最优决策条件上的指标不一样回归问题一般采用均方误差或者平均绝对误差。在回归树中选择特征和分割点的标准通常是最小化每个子节点内的数据方差或标准误差的减少
决策树构建的基本步骤
选择最佳分割特征 决策树通过选择最佳的特征来分割数据集。选择标准通常基于信息增益、信息增益比、基尼不纯度或均方误差等统计方法。
普通决策树会在每个分裂点所有特征中选择出最佳特征来分割数据集随机森林是先随机选择特征的子集然后再这个子集中进行最佳特征选择。即在决策树的分裂时特征空间的选择具有随机性。 分割数据集 一旦选择了一个特征数据集会根据该特征的不同取值被分割成不同的子集。这个过程会递归地在每个子集上重复进行直到满足停止条件。 递归构建树 对每个子集应用相同的方法递归地构建决策树的每个分支直到达到某个停止条件例如设置的最大深度、节点中的最小样本数或节点的纯度比如所有样本都属于同一类别。 剪枝 树构建完成后为防止过拟合通常需要对树进行剪枝。剪枝可以通过预剪枝在构建过程中提前停止树的增长或后剪枝删除树的某些部分来实现。
常见的决策树算法 ID3Iterative Dichotomiser 3 使用信息增益作为标准来选择分割的特征。仅能用于分类任务并且只处理离散特征。 C4.5 后续版本的ID3使用信息增益比来选择特征。能处理连续和离散特征同时引入了树的剪枝过程。 CARTClassification and Regression Trees 用于分类和回归的决策树算法。对于分类问题使用基尼不纯度作为标准对于回归问题使用均方误差。总是产生二叉树。随机森林采用的方法
决策树的优缺点
优点
易于理解和解释决策树可以可视化。能够同时处理数值型和类别型数据。对中间值的缺失不敏感。
缺点
易于过拟合尤其是树较深或样本较少时。对于那些各类别样本量差异较大的数据集信息增益的偏见问题。不稳定性小的数据变化可能导致树的显著变化。
决策树是机器学习中非常基础且强大的模型常作为许多先进算法如随机森林、梯度提升树的基石。理解其基本原理和操作是掌握更复杂模型的关键。 随机森林通常使用的决策树模型是 CARTClassification and Regression Trees树。CART 是一种广泛使用的决策树学习技术它可以用于分类和回归任务。CART 树使用基尼不纯度Gini impurity作为在单棵树中用于指导如何进行节点分裂从而构建决策树的默认标准;均方误差Mean Squared Error, MSE或平均绝对误差Mean Absolute Error, MAE来处理回归问题。