当前位置：首页 > news >正文

申请免费网站建设长春电商网站建设公司排名

news 2026/4/8 9:44:09

申请免费网站建设,长春电商网站建设公司排名,建设银行金牛支行网站,wordpress自己写界面【人工智能Ⅰ】7-KNN 决策树 7-1 KNN#xff08;K near neighbour#xff09; 思想#xff1a;一个样本与数据集中的k个样本最相似#xff0c;若这k个样本大多数属于某类别#xff0c;则该个样本也属于这类别距离度量样本相似性用欧氏距离定义 L p ( x i , x…【人工智能Ⅰ】7-KNN 决策树 7-1 KNNK near neighbour 思想一个样本与数据集中的k个样本最相似若这k个样本大多数属于某类别则该个样本也属于这类别距离度量样本相似性用欧氏距离定义 L p ( x i , x j ) ( Σ l 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 / p L_p(x_i,x_j)(Σ_{l1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^{1/p} Lp(xi,xj)(Σl1n∣xi(l)−xj(l)∣p)1/p 流程 1计算已知类别数据集中的点与当前点之间的距离 2按递增排序距离 3选取与当前点距离最小的k个点 4统计k个点的类别及其频率 5返回频率最高的类别作为当前点的预测分类优点 1简单有效 2适用大样本自动分类缺点 1类别分类不标准化 2不均衡性 3计算量较大 k值选择 1误差近似误差对现有训练集的训练误差过小说明过拟合估计误差对测试集的测试误差过小说明对未知数据的预测能力好 2k值过小近似误差小估计误差大过大估计误差小近似误差大k值一般取一个较小的数采用【交叉验证法】择优 3交叉验证法将数据集划分为N个大小相似的互斥子集并且尽量保证每个子集数据分布的一致性。这样可获取N组训练 - 测试集从而进行N次训练和测试。 7-2 决策树Decision tree 根据特征解决数据分类问题每个节点选择一个特征提出问题通过判断将数据分为2类再继续提问问题是在已知各种情况发生概率基础上构成决策树求取值大于等于0的概率再投入新数据时根据树上的问题将数据划分到合适叶子上事先确定每个样本的属性和类别节点表示属性测试分支表示测试输出叶子节点表示类别数据 1训练数据构造决策树即决策机制 2测试数据验证决策树的错误率构造树的依据 1信息熵表示信息的复杂程度 H − ∑ i 1 n p i ∗ l o g 2 ( p i ) H-∑_{i1}^np_i*log_2(pi) H−i1∑npi∗log2(pi) 2信息增益划分数据集前后信息熵的差值决策树过程 1选择根节点计算决策的信息熵H和每个属性的信息熵信息增益是【H - 选定属性的信息熵】选取信息增益最大的属性作为根节点 2选择新的节点 3构建完整树 4剪枝减少树的高度避免过拟合 1预剪枝干设定一个树高度当构建树达到高度时停止 2后剪枝任由决策树构建完成从底部开始判断哪些枝干应该剪掉预剪枝更快后剪枝更精确决策树总结 1 一棵决策树包含一个根节点、若干个内部结点和若干个叶结点 2在决策过程中提出的每个判定问题都是对某个属性的“测试”节点 3每个测试的结果或导出最终结论或导出进一步的判定问题 4根节点包含了样本全集其中叶节点对应于决策结果是或否其他每个结点对应于一个属性测试 5从根节点到每个叶节点的路径对应一个判定测试序列决策树叶子节点的生成递归过程导致递归返回的情况 1当前节点包含的样本全属于同一类别无需划分 2当前属性为空或所有样本在所有属性上取值相同无需划分。把当前节点标记为叶节点并将其类别设定为该节点所含样本最多的类别 3当前节点包含的样本集为空不能划分同样把当前节点标记为叶节点决策树学习的生成算法根据不同的目标函数算法分为ID3、C4.5、CART 建立决策树的关键即在当前状态下选择哪个属性作为分类依据算法类别ID3C4.5CART划分标准信息增益信息增益率基尼指数最小决策树优缺点优点 1易于理解和实现需要的背景知识少直接体现数据特点 2数据准备简单或不必要可同时处理数据型和常规型属性 3易于通过静态测试对模型评测可信度、逻辑表达式缺点 1对连续性的字段比较难预测 2对有时间顺序的数据需要预处理 3若类别过多错误增加快 7-3 集成学习通过建立几个模型组合解决单一预测问题工作原理生成多个分类器集成学习方法分类 1基于boosting提升 Adaboost梯度提升决策树GBDTXGBoostextreme gradient boostingLightGBM 基本思想 1每个样本均赋予一个权重 2T次迭代每次迭代后对分类错误的样本加大权重下次迭代更加关注分类错误的样本特点前面的学习器改变后面学习器的权重学习器采用串联方式连接采用线性加权方式进行组合每个基学习器都有相应的权重对于错误率小的基学习器会有更大的权重 2基于bagging装袋随机森林Random Forest极端随机树Extremely randomized treesExtra-Trees 基本思想对原始训练样本集采用自助随机采样即有放回的随机采样产生n个新的训练样本子集以此分别训练n个基学习器最后采用某种组合策略集成为强学习器特点对于分类问题通常使用简单投票法对于回归问题通常使用简单平均法 Adaboost 1 初始化训练样本的权重分布每个样本具有相同权重 2训练一个弱分类器如果样本分类正确则在构造下一个训练集中它的权重就会被降低反之提高样本的权重 3用更新过的样本集去训练下一个弱分类器 4各个弱分类器的训练过程结束后加大分类误差率小的弱分类器的权重降低分类误差率大的弱分类器的权重 5 将所有弱分类组合成强分类器随机森林随机随机选取训练样本集、随机选取分裂属性集森林多棵决策树过程决策树的生长和投票依靠决策树的投票选择决定最后的分类结果每棵树的生成 1有放回的采样N个样本构成训练集 2无放回的随机选择m个特征计算其信息增益并择优通常 m sqrt(M) 3使用一般决策树的构建方法得到一棵分类或预测的决策树 4重复1-3步得到H棵决策树将某个测试样本输入H棵树得到H个结果使用投票机制或最终分类结果判别测试样本所属的类别随机森林的生成分类效果错误率的相关因素 1森林中任意2棵树的相关性相关性越大错误率越大 2森林中每棵树的分类能力每棵树的分类能力越强整个森林的错误率越低随机森林唯一的参数特征选择个数m 减少m树的相关性和分类能力会降低袋外错误率OOB error 最优m的选择主要依据计算袋外错误率第k棵树的袋外样本数据没有参与第k棵树生成的训练实例袋外错误率对每棵树用未被选中的训练样本点统计每棵树的误分率最后取平均值得到随机森林的袋外错误率随机森林特点优点 1-两个随机性的引入不容易陷入过拟合具有很好的抗噪声能力 2-对数据集适应能力强可处理连续型和离散型数据数据无需规范化可运行大数据集 3-不需要降维可处理高维特征的输入样本 4-在生成过程中可获得内部生成误差的无偏估计 5-可处理缺省值问题缺点 1-噪声较大可能过拟合 2-对有不同级别属性的数据级别划分较多的属性会对随机森林产生更大的影响随机森林在这类数据上产出的属性权值不可信投票机制 1简单投票机制假设每个分类器平等一票否决少数服从多数有效多数阈值表决 2贝叶斯投票机制基于每个基本分类器在过去的分类表现设定一个权值按照这个权值进行投票 7-4 机器学习概念回顾有监督学习分类回归无监督学习聚类降维

查看全文

http://www.w-s-a.com/news/661322/