申请免费网站建设,长春电商网站建设公司排名,建设银行金牛支行网站,wordpress自己写界面【人工智能Ⅰ】7-KNN 决策树
7-1 KNN#xff08;K near neighbour#xff09;
思想#xff1a;一个样本与数据集中的k个样本最相似#xff0c;若这k个样本大多数属于某类别#xff0c;则该个样本也属于这类别
距离度量
样本相似性用欧氏距离定义 L p ( x i , x…【人工智能Ⅰ】7-KNN 决策树
7-1 KNNK near neighbour
思想一个样本与数据集中的k个样本最相似若这k个样本大多数属于某类别则该个样本也属于这类别
距离度量
样本相似性用欧氏距离定义 L p ( x i , x j ) ( Σ l 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 / p L_p(x_i,x_j)(Σ_{l1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^{1/p} Lp(xi,xj)(Σl1n∣xi(l)−xj(l)∣p)1/p
流程
1计算已知类别数据集中的点与当前点之间的距离
2按递增排序距离
3选取与当前点距离最小的k个点
4统计k个点的类别及其频率
5返回频率最高的类别作为当前点的预测分类
优点
1简单有效
2适用大样本自动分类
缺点
1类别分类不标准化
2不均衡性
3计算量较大
k值选择
1误差
近似误差对现有训练集的训练误差过小说明过拟合估计误差对测试集的测试误差过小说明对未知数据的预测能力好
2k值
过小近似误差小估计误差大过大估计误差小近似误差大k值一般取一个较小的数采用【交叉验证法】择优
3交叉验证法
将数据集划分为N个大小相似的互斥子集并且尽量保证每个子集数据分布的一致性。
这样可获取N组训练 - 测试集从而进行N次训练和测试。
7-2 决策树Decision tree
根据特征解决数据分类问题
每个节点选择一个特征提出问题通过判断将数据分为2类再继续提问问题是在已知各种情况发生概率基础上构成决策树求取值大于等于0的概率再投入新数据时根据树上的问题将数据划分到合适叶子上事先确定每个样本的属性和类别节点表示属性测试分支表示测试输出叶子节点表示类别
数据
1训练数据构造决策树即决策机制
2测试数据验证决策树的错误率
构造树的依据
1信息熵
表示信息的复杂程度 H − ∑ i 1 n p i ∗ l o g 2 ( p i ) H-∑_{i1}^np_i*log_2(pi) H−i1∑npi∗log2(pi) 2信息增益
划分数据集前后信息熵的差值
决策树过程
1选择根节点
计算决策的信息熵H和每个属性的信息熵
信息增益是【H - 选定属性的信息熵】
选取信息增益最大的属性作为根节点
2选择新的节点
3构建完整树
4剪枝
减少树的高度避免过拟合
1预剪枝干设定一个树高度当构建树达到高度时停止
2后剪枝任由决策树构建完成从底部开始判断哪些枝干应该剪掉
预剪枝更快后剪枝更精确
决策树总结
1 一棵决策树包含一个根节点、若干个内部结点和若干个叶结点
2在决策过程中提出的每个判定问题都是对某个属性的“测试”节点
3每个测试的结果或导出最终结论或导出进一步的判定问题
4根节点包含了样本全集其中叶节点对应于决策结果是或否其他每个结点对应于一个属性测试
5从根节点到每个叶节点的路径对应一个判定测试序列
决策树叶子节点的生成
递归过程
导致递归返回的情况
1当前节点包含的样本全属于同一类别无需划分
2当前属性为空或所有样本在所有属性上取值相同无需划分。把当前节点标记为叶节点并将其类别设定为该节点所含样本最多的类别
3当前节点包含的样本集为空不能划分同样把当前节点标记为叶节点
决策树学习的生成算法
根据不同的目标函数算法分为ID3、C4.5、CART
建立决策树的关键即在当前状态下选择哪个属性作为分类依据
算法类别ID3C4.5CART划分标准信息增益信息增益率基尼指数最小
决策树优缺点
优点
1易于理解和实现需要的背景知识少直接体现数据特点
2数据准备简单或不必要可同时处理数据型和常规型属性
3易于通过静态测试对模型评测可信度、逻辑表达式
缺点
1对连续性的字段比较难预测
2对有时间顺序的数据需要预处理
3若类别过多错误增加快
7-3 集成学习
通过建立几个模型组合解决单一预测问题
工作原理生成多个分类器
集成学习方法分类
1基于boosting提升
Adaboost梯度提升决策树GBDTXGBoostextreme gradient boostingLightGBM
基本思想
1每个样本均赋予一个权重
2T次迭代每次迭代后对分类错误的样本加大权重下次迭代更加关注分类错误的样本
特点
前面的学习器改变后面学习器的权重学习器采用串联方式连接
采用线性加权方式进行组合每个基学习器都有相应的权重对于错误率小的基学习器会有更大的权重
2基于bagging装袋
随机森林Random Forest极端随机树Extremely randomized treesExtra-Trees
基本思想
对原始训练样本集采用自助随机采样即有放回的随机采样产生n个新的训练样本子集以此分别训练n个基学习器最后采用某种组合策略集成为强学习器
特点
对于分类问题通常使用简单投票法对于回归问题通常使用简单平均法
Adaboost
1 初始化训练样本的权重分布每个样本具有相同权重
2训练一个弱分类器如果样本分类正确则在构造下一个训练集中它的权重就会被降低反之提高样本的权重
3用更新过的样本集去训练下一个弱分类器
4各个弱分类器的训练过程结束后加大分类误差率小的弱分类器的权重降低分类误差率大的弱分类器的权重
5 将所有弱分类组合成强分类器
随机森林
随机随机选取训练样本集、随机选取分裂属性集
森林多棵决策树
过程决策树的生长和投票
依靠决策树的投票选择决定最后的分类结果
每棵树的生成
1有放回的采样N个样本构成训练集
2无放回的随机选择m个特征计算其信息增益并择优通常 m sqrt(M)
3使用一般决策树的构建方法得到一棵分类或预测的决策树
4重复1-3步得到H棵决策树将某个测试样本输入H棵树得到H个结果使用投票机制或最终分类结果判别测试样本所属的类别
随机森林的生成
分类效果错误率的相关因素
1森林中任意2棵树的相关性
相关性越大错误率越大
2森林中每棵树的分类能力
每棵树的分类能力越强整个森林的错误率越低 随机森林唯一的参数特征选择个数m 减少m树的相关性和分类能力会降低 袋外错误率OOB error
最优m的选择主要依据计算袋外错误率
第k棵树的袋外样本数据没有参与第k棵树生成的训练实例
袋外错误率对每棵树用未被选中的训练样本点统计每棵树的误分率最后取平均值得到随机森林的袋外错误率
随机森林特点
优点
1-两个随机性的引入不容易陷入过拟合具有很好的抗噪声能力
2-对数据集适应能力强可处理连续型和离散型数据数据无需规范化可运行大数据集
3-不需要降维可处理高维特征的输入样本
4-在生成过程中可获得内部生成误差的无偏估计
5-可处理缺省值问题
缺点
1-噪声较大可能过拟合
2-对有不同级别属性的数据级别划分较多的属性会对随机森林产生更大的影响随机森林在这类数据上产出的属性权值不可信
投票机制
1简单投票机制
假设每个分类器平等
一票否决少数服从多数有效多数阈值表决
2贝叶斯投票机制
基于每个基本分类器在过去的分类表现设定一个权值按照这个权值进行投票
7-4 机器学习概念回顾
有监督学习分类回归
无监督学习聚类降维