制定一份网站界面设计方案,郑州seo优化顾问阿亮,手机ppt制作软件,网站建设用语言机器学习西瓜书学习笔记【第二章】 第二章 模型评估与选择2.1训练误差和测试误差错误率误差 欠拟合和过拟合2.2评估方法留出法交叉验证法自助法 2.3性能度量查准率、查全率与F1查准率查全率F1 P-R曲线ROC与AUCROCAUC 代价敏感错误率与代价曲线代价曲线 2.4比较检验假设检验二项检验 第二章 模型评估与选择
2.1训练误差和测试误差
错误率
在分类任务中通常把错分的样本数占样本总数的比例称为错误率。比如m个样本有a个预测错了错误率就是 E a/m与错误率相对的 1 - a/m 称为精度。
误差
我们通常会把学习器的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为训练误差或者经验误差。而在新样本上的误差则称为泛化误差或者测试误差。
训练误差 泛化误差测试误差 欠拟合和过拟合
欠拟合模型对训练数据的拟合程度不足或不够好的情况。 过拟合模型过度学习了训练数据中的噪声和细节导致对训练样本的拟合过于精确。
2.2评估方法
留出法
①直接将数据集D划分为两个互斥的集合。
②注意训练集和测试集同分布
③进行多次随机划分训练出多个模型最后取平均值
交叉验证法
①原始数据分为K份K-1份作为训练集甚于的作为测试集。
②K-1部分训练模型对所有的测试结果取平均值。
自助法
①从原始数据集中随机选择n个样本构成一个新的数据集。 ②使用新的数据集训练模型。 ③使用原始数据集测试模型计算模型的各项性能指标再对每个性能指标取平均值和标准偏差。
2.3性能度量
查准率、查全率与F1
查准率
①预测结果中真正例TP占所有预测结果中正例TPFP的比例。
②公式Precision TP / (TP FP)
③查准率越高说明模型预测结果中真正例的比例越高模型对于正样本的识别能力越强。
查全率
①预测结果中真正例TP占所有实际正例TPFN的比例。
②公式为Recall TP / (TP FN)。
③查全率越高说明模型能够成功预测出的正样本比例越高模型的识别能力越全面。
F1
①查准率和查全率的调和均值用于综合评价模型的性能。
②公式为F1 2 * (Precision * Recall) / (Precision Recall)。
③F1值越高说明模型在准确性和可靠性方面的表现都较好。 P-R曲线
查准率和查全率是一对矛盾的度量.一般来说查准率高时查全率往往偏低;而查全率高时,查准率往往偏低。 以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称**“P-R曲线”**显示该曲线的图称为“P-R图”.
ROC与AUC
ROC曲线和AUC常被用来评价一个二值分类器的优劣。
ROC
它通过将真正例率和假正例率作为横纵坐标来描绘分类器在不同阈值下的性能。 AUC
进行学习器的比较时与P-R 图相似。
若一个学习器的 ROC 曲线被另个学习器的曲线完全“包住”则可断言后者的性能优于前者; 若两个学习器的 ROC 曲线发生交叉则难以一般性地断言两者孰优敦劣。此时如果一定要进行比较.则较为合理的判据是比较 ROC 曲线下的面积即AUC。 代价敏感错误率与代价曲线
代价曲线
目的对于一个模型根据p不同找到使得代价总期望最小的模型的阈值。
横轴归一化的整改率代价期望。
纵轴归一化的总代价期望。 2.4比较检验
评估学习性能的因素泛化能力、测试集的选择、算法的随机性。
假设检验二项检验
泛化错误率e是指学习器在一般情况下对一个样本分类出错的概率实际无法得知它的准确值 测试错误率e ′ 即学习器在测试一个m大小的样本集时恰好有e ′ m 个样本被分错类了一般情况下只能获得这个值
假设检验的方法就是用e’估计e的值。