中国做的比较好的电商网站有哪些,南宁自助建站模板下载,专业网站设计模板,重庆网站建设大概需要多少钱决策树的构造
策略#xff1a;从上往下学习通过recursive divide-and-conquer process#xff08;递归分治过程#xff09;
首先选择最好的变量作为根节点#xff0c;给每一个可能的变量值创造分支。然后将样本放进子集之中#xff0c;从每个分支的节点拓展一个。最后从上往下学习通过recursive divide-and-conquer process递归分治过程
首先选择最好的变量作为根节点给每一个可能的变量值创造分支。然后将样本放进子集之中从每个分支的节点拓展一个。最后对每个分支进行递归重复只使用到达该分支的样本停止递归如果所有的样本都有着相同的类别为这个类创建一个叶节点
信息增益基于熵
熵衡量的是这个集合相对于类的纯度。
熵越小数据集的纯度就越大
熵也用于信号压缩信息论和物理学。
定义
Entropy H(S) H ( S ) I ( S ) − ∑ i P i ∗ l o g 2 P i H(S) I(S) -\sum_iP_i*log_2P_i H(S)I(S)−i∑Pi∗log2Pi P i P_i Pi 代表属于类别i的样本比例
举例
假设现在有 2 个类别 yes 和 no 这个集合中有9个yes5个no 交叉熵的计算如下 H ( S ) − 9 14 l o g 2 9 14 − 5 14 l o g 2 5 14 0.94 b i t s H(S) -\frac{9}{14}log_2\frac{9}{14} - \frac{5}{14}log_2 \frac{5}{14} 0.94 bits H(S)−149log2149−145log21450.94bits 熵是用比特来测量的 在计算熵的时候我们会假设 l o g 2 0 0 log_20 0 log200 H(S) 的范围是[0,1] 当H(S) 0 的时候S的所有元素都属于相同的类即这个集合是纯净的拥有最小的Entropy(熵)当H(S) 1 的时候有相同数量的yes和no假设是两类即最小的纯净度最大的Entropy.
信息增益
信息增益度量使用属性划分训练示例集所导致的熵减少。它是两个熵的差增益 T1-T2T1为分裂前与父节点相关联的样本集合S的熵T2是S中剩余的熵在S被属性分割后差值越大信息增益越高最好的属性是信息增益最高的属性 它减少了父节点的熵
案例
选择outlook作为根节点以此分出3个子集 各自有545个样本。 T 1 H ( S ) I ( 9 14 , 5 14 ) T1 H(S) I(\frac{9}{14},\frac{5}{14}) T1H(S)I(149,145) T 2 H ( S ∣ o u t l o o k ) 5 14 H ( S 1 ) 4 14 H ( S 2 ) 5 14 H ( S 3 ) T2 H(S|outlook) \frac{5}{14}H(S_1)\frac{4}{14}H(S_2)\frac{5}{14}H(S_3) T2H(S∣outlook)145H(S1)144H(S2)145H(S3)
修剪决策树
如果我们生长决策树来完美地分类训练集树可能会变得过于具体并过度拟合数据。过拟合-训练daddata的精度高但新数据的精度低树变得太具体了主要是记忆数据而不是提取模式在决策树中什么时候会发生过拟合 训练数据太小-没有足够的代表性示例来构建一个可以在新数据上很好地泛化的模型训练数据中的噪音例如标签错误的例子 使用树修剪来避免过拟合
两个主要策略
pre-pruning 在它达到完美分类训练数据的点之前尽早停止生长树 post-pruning 让树完全生长让它完美地覆盖训练数据然后修剪它 在实践中优先考虑后修剪不同的后剪枝方法 子树替换子树的提升将树转换为规则然后修剪它们 修剪多少使用验证集来决定
通过子树替换的修剪思想
自下而上-从树的底部到根部
每个非叶节点都是修剪的候选节点对于每个节点移除根在它上面的子树用classmajority类的例子替换它候选节点比较新树和旧树通过计算两者的验证集的精度如果新树的精度更好或与旧树的精度相同保持新树即修剪候选节点
总结
非常流行的ML技术自上而下的学习使用递归的分治过程易于实现可解释的制作的树很容易被非专家和客户可视化和理解可解释性增加了在实践中使用机器学习模型的信任使用修剪来防止过拟合选择最佳属性-信息增益、增益比等