网站建设的好处论文,邵阳建设网站的公司,广告优化师的职业规划,最专业的网站建设收费文章目录机器学习典型的机器学习过程基本术语归纳偏好机器学习 机器学习#xff1a;致力于研究如果通过计算的手段#xff0c;利用经验来改善系统自身的性能 在计算机系统中#xff0c;“经验” 通常以 “数据” 形式存在#xff0c;因此#xff0c;机器学习所研究的主要内…
文章目录机器学习典型的机器学习过程基本术语归纳偏好机器学习 机器学习致力于研究如果通过计算的手段利用经验来改善系统自身的性能 在计算机系统中“经验” 通常以 “数据” 形式存在因此机器学习所研究的主要内容是关于在计算机上从数据中产生 ”模型“ (model) 的算法即 ”学习算法“ (learning algorithm).
有了学习算法我们把经验数据提供给它它就能基于这些数据产生模型在面对新的情况时模型会给我们提供相应的判断.
典型的机器学习过程 基本术语
要进行机器学习先要有数据. 假定我们收集了一些关于西瓜的数据如下表所示
色泽根蒂敲声好瓜青绿蜷缩浊响是乌黑蜷缩浊响是青绿硬挺清脆否乌黑稍缩沉闷否示例 (instance)表中每一行是一条记录每条记录是关于一个事物或对象的描述称为一个 ”示例“ 属性 (attribute)反应事物或对象在某方面的表现或性质的事项例如表中 ”色泽“、”根蒂“ 称为属性或 特征 (feature) 属性上的取值例如 ”青绿“、”乌黑“ 称为属性值 (attribute value) 属性空间 (attribute space)属性张成的空间称为 ”属性空间“ 、”样本空间“ 或”输入空间“. 例如我们把 “色泽”、“根蒂”、“敲声”作为三个坐标轴则它们张成一个用于描述西瓜的三维空间每个西瓜都可在这个空间中找到自己的坐标位置 学习(learning)、训练(training)从数据中学得模型的过程称为学习或训练这个过程通过执行某个学习算法来完成。 假设(hypothesis)学得模型对应了关于数据的某种潜在的规律亦称假设这种潜在规律自身则称为 “真相” 或 “真实”学习过程就是为了找出或逼近真相 标记(label)训练样本中关于结果的信息例如 “好瓜” 分类(classification)若我们预测的是离散值例如“好瓜”、“坏瓜”此类学习任务称为分类 回归(regression)若预测的是连续值例如西瓜的成熟度0.95、0.56此类学习任务称为回归 聚类(clustering)将训练集中的数据分为若干组每组称为一个簇(cluster)这些簇可能对应一些潜在的概念划分在聚类学习过程中使用的训练样本通常不具有标记信息 监督学习(supervised learning)|无监督学习(unsupervised learning)根据训练数据是否拥有标记信息学习任务可大致分为监督学习和无监督学习.分类和回归是前者的代表聚类是后者的代表. 泛化(generalization)学得模型适用于新样本的能力称为泛化能力. 版本空间(version space)现实问题中我们常面临很大的假设空间但学习过程是基于有限样本训练的因此可能有多个假设与训练集一致即存在着一个与训练集一致的 “假设集合”称之为版本空间
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好称为 “归纳偏好”或简称 “偏好”
任何一个有效的学习算法必有其归纳偏好否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑而无法产生确定的学习结果.
引导算法确立 “正确的” 偏好的一般性原则奥卡姆剃刀
奥卡姆剃刀
若非必要勿增实体若有多个假设与观察一致则选最简单的那个
例如方程式 y−x26x1y-x^26x1y−x26x1 与方程式 y−x31y-x^31y−x31 相比若我们认为次数越小越简单则前者更简单若认为方程式的项数越少越简单则后者更简单.