网站建设 报告,专业版装修用什么网站做导航条,做网站服务器权限设置,百度广告位价格表一、定义
在处理偏斜数据集时#xff0c;通常使用不同的误差度量#xff0c;而不仅仅是使用分类误差来衡量算法性能。
1. 混淆矩阵的概念
二分类问题的混淆矩阵为2X2矩阵#xff0c;由四部分组成#xff1a;
假阴性#xff08;FN#xff09;#xff1a;模型预测为负…一、定义
在处理偏斜数据集时通常使用不同的误差度量而不仅仅是使用分类误差来衡量算法性能。
1. 混淆矩阵的概念
二分类问题的混淆矩阵为2X2矩阵由四部分组成
假阴性FN模型预测为负N但实际上是正P的个数。
真阴性TN模型预测为负N实际上也是负N的个数。
假阳性FP模型预测为正P但实际上是负N的个数。
真阳性TP模型预测为正P实际上也是正P的个数。
2. 准确率、精确率、召回率的定义
· 准确率真阳性真阴性的数量 / 总的预测结果数量
· 精确率真阳性的数量 / 分类为阳性的数量
· 召回率真阳性的数量 / 实际为阳性的数量 二、作用
精确率越高表示在一个二分类问题中若某个输入真实值为1那么模型预测其为1的精确度越高让现有的预测结果更不容易出错。
召回率越高表示在一个二分类问题中若某个输入真实值为1那么模型会识别出其为1的概率越高让模型更能预测到所有值有可能为1的样本。 例以预测地震模型为例。预测某天发生地震记为1不发生记为0 假设实际上第50天、第100天都发生了地震。
精确率越高表示宁愿地震了没报也不能误报地震——不错报1。在这种情况下模型可能只预测了第50天发生地震但是假阳性的数量很少。此时精确率为1/1100%召回率为1/250%。
召回率越高表示宁愿可能没有发生地震也不能漏报地震——不漏报1。在这种情况下模型可能预测了第50天、第75天、第100天都发生地震此时召回率为2/2100%精确率为2/375%。
三、权衡精确率、召回率
1. 根据实际问题设置二分类预测结果的阈值
例如诊断罕见疾病设置阈值为0.5时超过0.5预测为1低于0.5预测为0。但是实际上我们可能需要对该预测结果“足够有信心”也就是说当预测为1时能够更有把握确定病人确实患了该疾病那么就需要调高精确率。
此时设置一个更高的阈值比如0.7就使得模型预测为1的门槛更高了也就提高了预测精度。
但当设置精确值较高时由于我们忽略掉了一些真值为1但是却并不过于明显的数据就会使得召回率变得更低。
这就使得有些罕见疾病的病例被模型遗漏了也就是说更多的患者并没有被模型识别出来。 一般来说设置更高的阈值就会得到更高的准确率同时牺牲召回率。
2. F1分数——自动结合精度召回率来帮助权衡 例假设现在有三个机器学习算法模型 算法①较高的精确率较低的召回率
算法②较高的召回率较低的精确率
算法③两者较为均衡
为了在三个算法模型之间进行取舍我们可以计算各个算法相对应的分数。按分数进行抉择。
应用F1分数计算模型得分 ※式中P和R分别代表精确率和召回率。
F1分数更多地关注P和R中较低的那个数值。因为当精确率或召回率太低这个模型基本没有太大作用。