当前位置: 首页 > news >正文

申请免费网站建设长春电商网站建设公司排名

申请免费网站建设,长春电商网站建设公司排名,建设银行金牛支行网站,wordpress自己写界面【人工智能Ⅰ】7-KNN 决策树 7-1 KNN#xff08;K near neighbour#xff09; 思想#xff1a;一个样本与数据集中的k个样本最相似#xff0c;若这k个样本大多数属于某类别#xff0c;则该个样本也属于这类别 距离度量 样本相似性用欧氏距离定义 L p ( x i , x…【人工智能Ⅰ】7-KNN 决策树 7-1 KNNK near neighbour 思想一个样本与数据集中的k个样本最相似若这k个样本大多数属于某类别则该个样本也属于这类别 距离度量 样本相似性用欧氏距离定义 L p ( x i , x j ) ( Σ l 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 / p L_p(x_i,x_j)(Σ_{l1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^{1/p} Lp​(xi​,xj​)(Σl1n​∣xi(l)​−xj(l)​∣p)1/p 流程 1计算已知类别数据集中的点与当前点之间的距离 2按递增排序距离 3选取与当前点距离最小的k个点 4统计k个点的类别及其频率 5返回频率最高的类别作为当前点的预测分类 优点 1简单有效 2适用大样本自动分类 缺点 1类别分类不标准化 2不均衡性 3计算量较大 k值选择 1误差 近似误差对现有训练集的训练误差过小说明过拟合估计误差对测试集的测试误差过小说明对未知数据的预测能力好 2k值 过小近似误差小估计误差大过大估计误差小近似误差大k值一般取一个较小的数采用【交叉验证法】择优 3交叉验证法 将数据集划分为N个大小相似的互斥子集并且尽量保证每个子集数据分布的一致性。 这样可获取N组训练 - 测试集从而进行N次训练和测试。 7-2 决策树Decision tree 根据特征解决数据分类问题 每个节点选择一个特征提出问题通过判断将数据分为2类再继续提问问题是在已知各种情况发生概率基础上构成决策树求取值大于等于0的概率再投入新数据时根据树上的问题将数据划分到合适叶子上事先确定每个样本的属性和类别节点表示属性测试分支表示测试输出叶子节点表示类别 数据 1训练数据构造决策树即决策机制 2测试数据验证决策树的错误率 构造树的依据 1信息熵 表示信息的复杂程度 H − ∑ i 1 n p i ∗ l o g 2 ( p i ) H-∑_{i1}^np_i*log_2(pi) H−i1∑n​pi​∗log2​(pi) 2信息增益 划分数据集前后信息熵的差值 决策树过程 1选择根节点 计算决策的信息熵H和每个属性的信息熵 信息增益是【H - 选定属性的信息熵】 选取信息增益最大的属性作为根节点 2选择新的节点 3构建完整树 4剪枝 减少树的高度避免过拟合 1预剪枝干设定一个树高度当构建树达到高度时停止 2后剪枝任由决策树构建完成从底部开始判断哪些枝干应该剪掉 预剪枝更快后剪枝更精确 决策树总结 1 一棵决策树包含一个根节点、若干个内部结点和若干个叶结点 2在决策过程中提出的每个判定问题都是对某个属性的“测试”节点 3每个测试的结果或导出最终结论或导出进一步的判定问题 4根节点包含了样本全集其中叶节点对应于决策结果是或否其他每个结点对应于一个属性测试 5从根节点到每个叶节点的路径对应一个判定测试序列 决策树叶子节点的生成 递归过程 导致递归返回的情况 1当前节点包含的样本全属于同一类别无需划分 2当前属性为空或所有样本在所有属性上取值相同无需划分。把当前节点标记为叶节点并将其类别设定为该节点所含样本最多的类别 3当前节点包含的样本集为空不能划分同样把当前节点标记为叶节点 决策树学习的生成算法 根据不同的目标函数算法分为ID3、C4.5、CART 建立决策树的关键即在当前状态下选择哪个属性作为分类依据 算法类别ID3C4.5CART划分标准信息增益信息增益率基尼指数最小 决策树优缺点 优点 1易于理解和实现需要的背景知识少直接体现数据特点 2数据准备简单或不必要可同时处理数据型和常规型属性 3易于通过静态测试对模型评测可信度、逻辑表达式 缺点 1对连续性的字段比较难预测 2对有时间顺序的数据需要预处理 3若类别过多错误增加快 7-3 集成学习 通过建立几个模型组合解决单一预测问题 工作原理生成多个分类器 集成学习方法分类 1基于boosting提升 Adaboost梯度提升决策树GBDTXGBoostextreme gradient boostingLightGBM 基本思想 1每个样本均赋予一个权重 2T次迭代每次迭代后对分类错误的样本加大权重下次迭代更加关注分类错误的样本 特点 前面的学习器改变后面学习器的权重学习器采用串联方式连接 采用线性加权方式进行组合每个基学习器都有相应的权重对于错误率小的基学习器会有更大的权重 2基于bagging装袋 随机森林Random Forest极端随机树Extremely randomized treesExtra-Trees 基本思想 对原始训练样本集采用自助随机采样即有放回的随机采样产生n个新的训练样本子集以此分别训练n个基学习器最后采用某种组合策略集成为强学习器 特点 对于分类问题通常使用简单投票法对于回归问题通常使用简单平均法 Adaboost 1 初始化训练样本的权重分布每个样本具有相同权重 2训练一个弱分类器如果样本分类正确则在构造下一个训练集中它的权重就会被降低反之提高样本的权重 3用更新过的样本集去训练下一个弱分类器 4各个弱分类器的训练过程结束后加大分类误差率小的弱分类器的权重降低分类误差率大的弱分类器的权重 5 将所有弱分类组合成强分类器 随机森林 随机随机选取训练样本集、随机选取分裂属性集 森林多棵决策树 过程决策树的生长和投票 依靠决策树的投票选择决定最后的分类结果 每棵树的生成 1有放回的采样N个样本构成训练集 2无放回的随机选择m个特征计算其信息增益并择优通常 m sqrt(M) 3使用一般决策树的构建方法得到一棵分类或预测的决策树 4重复1-3步得到H棵决策树将某个测试样本输入H棵树得到H个结果使用投票机制或最终分类结果判别测试样本所属的类别 随机森林的生成 分类效果错误率的相关因素 1森林中任意2棵树的相关性 相关性越大错误率越大 2森林中每棵树的分类能力 每棵树的分类能力越强整个森林的错误率越低 随机森林唯一的参数特征选择个数m 减少m树的相关性和分类能力会降低 袋外错误率OOB error 最优m的选择主要依据计算袋外错误率 第k棵树的袋外样本数据没有参与第k棵树生成的训练实例 袋外错误率对每棵树用未被选中的训练样本点统计每棵树的误分率最后取平均值得到随机森林的袋外错误率 随机森林特点 优点 1-两个随机性的引入不容易陷入过拟合具有很好的抗噪声能力 2-对数据集适应能力强可处理连续型和离散型数据数据无需规范化可运行大数据集 3-不需要降维可处理高维特征的输入样本 4-在生成过程中可获得内部生成误差的无偏估计 5-可处理缺省值问题 缺点 1-噪声较大可能过拟合 2-对有不同级别属性的数据级别划分较多的属性会对随机森林产生更大的影响随机森林在这类数据上产出的属性权值不可信 投票机制 1简单投票机制 假设每个分类器平等 一票否决少数服从多数有效多数阈值表决 2贝叶斯投票机制 基于每个基本分类器在过去的分类表现设定一个权值按照这个权值进行投票 7-4 机器学习概念回顾 有监督学习分类回归 无监督学习聚类降维
http://www.w-s-a.com/news/661322/

相关文章:

  • 网站评论列表模板设计官网的
  • 怎么做可以访问网站ui设计自学学的出来吗
  • 网站如何接入支付宝软件开发工作内容描述
  • 廊坊网站建设搭建整合营销传播的效果表现为
  • 网站服务器在本地是指园林绿化
  • 公司网站建设需要什么科目网站代运营价格
  • 网站建设前的ER图ppt模板图片 背景
  • 做一个网站花多少钱网站导航营销步骤
  • 仙桃网站定制做房产网站能赚钱吗
  • 西安网站制作模板最新源码
  • 南京江宁网站建设大学高校网站建设栏目
  • 模板网站建设明细报价表做网站第一
  • 公司网站建设系统软件开发 上海
  • 怎么让公司建设网站固安县建设局网站
  • 360免费建站官网入口手机网站建设设计
  • 商城网站建站系统dw如何做网页
  • 网站建设的公司收费我有网站 怎么做淘宝推广的
  • 网站建设策划书事物选题手机兼职app
  • html5 微网站模版wordpress博客速度很慢
  • 怎么做五个页面网站网络推广如何收费
  • 上虞宇普电器网站建设江西建筑人才网
  • 在吗做网站商城一个网站需要服务器吗
  • 先做网站再备案吗中山微网站建设报价
  • 树莓派可以做网站的服务器吗网站建设与设计ppt
  • 网站访问速度分析网站怎么做让PC和手机自动识别
  • 网站建设要考西宁网站建设多少钱
  • 网站开发公司东莞网站推广计划书具体包含哪些基本内容?
  • 素材天下网站惠州网站建设行业
  • 网站做a视频在线观看网站天津建站
  • 自己做的网站怎么链接火车头采集一个网站可以做几级链接