网站能看出建设时间吗,深圳优化网站关键词,网站开发案列,江门网红打卡景点蓬江区本文以西瓜数据集为例演示决策树使用信息增益选择最优划分属性的过程 西瓜数据集下载#xff1a;传送门
首先计算根节点的信息熵#xff1a;
数据集分为好瓜、坏瓜#xff0c;所以|y|2根结点包含17个训练样例#xff0c;其中好瓜共计8个样例#xff0c;所占比例为8/17坏… 本文以西瓜数据集为例演示决策树使用信息增益选择最优划分属性的过程 西瓜数据集下载传送门
首先计算根节点的信息熵
数据集分为好瓜、坏瓜所以|y|2根结点包含17个训练样例其中好瓜共计8个样例所占比例为8/17坏瓜共计9个样例所占比例为9/17
将数据带入信息熵公式即可得到根结点的信息熵 E n t ( D ) − ( 8 17 log 2 8 17 9 17 log 2 9 17 ) 0.998 Ent(D)-\left( \frac{8}{17}\log_2\frac{8}{17}\frac{9}{17}\log_2\frac{9}{17} \right) 0.998 Ent(D)−(178log2178179log2179)0.998
以属性色泽为例其对应3个数据子集
D1(色泽青绿)包含{146101317}共6个样例其中好瓜样例为{146}比例为3/6坏瓜样例为{101317}比例为3/6。将数据带入信息熵计算公式即可得到该结点的信息熵1.000D2(色泽乌黑)包含{2378915}共6个样例其中好瓜样例为{2378}比例为4/6坏瓜样例为{915}比例为2/6。将数据带入信息熵计算公式即可得到该结点的信息熵0.918D1(色泽浅白)包含{511121416}共5个样例其中好瓜样例为{5}比例为1/5坏瓜样例为{11121416}比例为4/5。将数据带入信息熵计算公式即可得到该结点的信息熵0.722
则计算色泽属性的信息增益为 G a i n ( D , 色泽 ) E n t ( D ) − ∑ v 1 3 ∣ D v ∣ ∣ D ∣ E n t ( D ) 0.998 − ( 6 17 ∗ 1.000 6 17 ∗ 0.918 5 17 ∗ 0.722 ) 0.109 Gain(D,色泽)Ent(D)-\sum_{v1}^{3}\frac{|D^v|}{|D|}Ent(D) \\ 0.998-\left( \frac{6}{17} * 1.000\frac{6}{17}*0.918\frac{5}{17}*0.722 \right) 0.109 Gain(D,色泽)Ent(D)−v1∑3∣D∣∣Dv∣Ent(D)0.998−(176∗1.000176∗0.918175∗0.722)0.109
同样的方法计算其他属性的信息增益为 G a i n ( D , 根蒂 ) 0.143 G a i n ( D , 敲声 ) 0.141 G a i n ( D , 纹理 ) 0.381 G a i n ( D , 脐部 ) 0.289 G a i n ( D , 触感 ) 0.006 Gain(D,根蒂)0.143 \\ Gain(D,敲声)0.141 \\ Gain(D,纹理)0.381 \\ Gain(D,脐部)0.289 \\ Gain(D,触感)0.006 \\ Gain(D,根蒂)0.143Gain(D,敲声)0.141Gain(D,纹理)0.381Gain(D,脐部)0.289Gain(D,触感)0.006
对比不同属性我们发现纹理属性的信息增益最大因此纹理属性被选为划分属性清晰{12345681015}、稍糊{79131417}、模糊{111216}
下一步我们再看纹理清晰的节点分支该节点包含的样例集合D1中有编号为{12345681015}共计9个样例此时可用属性集合为{色泽根蒂敲声脐部触感}纹理不会再作为划分属性我们以同样的方式再计算各属性的信息增益为 G a i n ( D , 色泽 ) 0.043 G a i n ( D , 根蒂 ) 0.458 G a i n ( D , 敲声 ) 0.331 G a i n ( D , 脐部 ) 0.458 G a i n ( D , 触感 ) 0.458 Gain(D,色泽)0.043 \\ Gain(D,根蒂)0.458 \\ Gain(D,敲声)0.331 \\ Gain(D,脐部)0.458 \\ Gain(D,触感)0.458 \\ Gain(D,色泽)0.043Gain(D,根蒂)0.458Gain(D,敲声)0.331Gain(D,脐部)0.458Gain(D,触感)0.458
从上图可以看出根蒂、脐部、触感3个属性均取得了最大的信息增益此时可任选其一作为划分属性。同理对每个分支结点进行类似操作即可得到最终的决策树