抖音网站怎么做,个人主题网站,做网站需要的语言,前端搜索网站引擎怎么做前言
在学习到这部分时#xff0c;对 ℓ-rank 以及AUC的关系难以理解透彻#xff0c;在网上看到其他博主也并未弄明白#xff0c;大家大多写自己的理解#xff0c;我希望您在看完这篇文章时能够深刻理解这二者的关系#xff0c;如果我的理解有误#xff0c;希望您在评论…前言
在学习到这部分时对 ℓ-rank 以及AUC的关系难以理解透彻在网上看到其他博主也并未弄明白大家大多写自己的理解我希望您在看完这篇文章时能够深刻理解这二者的关系如果我的理解有误希望您在评论区指正给出您的见解。
首先理解什么是AUC
首先理解什么是ROC曲线ROC曲线如何绘制
ROC曲线即接收者操作特征曲线Receiver Operating Characteristic Curve反映了在不同分类阈值下真正类率TPR和假正类率FPR的变化情况。
绘制ROC曲线的过程如下
给定m个正例和m-个反例首先将分类的阈值设置到最大此时所有的例子预测结果都是反例此时真正例率和假正例率均为0在坐标原点00处标记一个点。然后逐步降低阈值每次降低都将导致更多的样例被划分为正例。对于每个降低的阈值计算当前的真正例率和假正例率并在ROC图上标记相应的点。最后用线段连接这些点即得ROC曲线。
通俗地说分类阈值就像一个“门槛”数据样本需要通过这个“门槛”才能被归类到某个类别中。在二分类问题中模型通常会为每个样本输出一个概率值表示该样本属于正例比如某种疾病的患者的概率。这时我们就需要选择一个阈值来决定当这个概率达到多少时我们就认为这个样本是正例。
例如如果我们设定阈值为0.5那么当模型输出的概率概率就是模型对一个例子的判断比如说10%可能是正例90%是反例大于或等于0.5时我们就认为这个样本是正例那么刚才认为10%为正例就不被认为是正例如果小于0.5则认为是负例比如非疾病患者。
我们所做的就是逐渐把开始设定的正例阈值从100%逐渐降低到0。然后看模型的结果被划分为真正例与假正例的结果。比如有个正例机器给的判断是50%概率是正例那么他就会在之后我们把阈值降到50%时被纳入正例此时这是一个正例模型判断也为正例那么就被纳入真正例如果是这是一个反例模型给出50%概率的正例那么此时应该别纳入假正例。
在绘制ROC曲线时我们会使用多个不同的阈值来计算真正例率True Positive RateTPR和假正例率False Positive RateFPR。TPR表示实际为正例的样本中被预测为正例的比例而FPR表示实际为负例的样本中被错误地预测为正例的比例。通过改变阈值我们可以得到不同的TPR和FPR组合从而绘制出ROC曲线。
具体来说从00开始对于给定的m1个正例和m2个反例根据预测结果进行排序依次将这些样例划分为正例。若为**真正例则y值增加1/m1否则x值增加1/m2。**最后将这些点连线所得到的面积就是AUC。
什么是AUC
AUCArea Under the Curve曲线则是基于ROC曲线计算得到的。AUC值表示ROC曲线下的面积用于量化评估模型的性能。AUC值越接近1表示模型的性能越好。
ℓ-rank 先看这个表达式我们需要理解一些东西
m与m -, D 与D-,II
m 与m -分别对应正例与反例的个数。 D与D-分别对应正例集与反例集。 II罗马数字2如果在II后括号中的为正确表达式那么返回1否则返回0。
f函数
f函数可以认为是被判断出来的先后如果例子被先判断出来那么函数的值大反之就小 ℓ-rank被称为排序损失为什么要叫排序损失呢 我们不妨看看刚才的ROC曲线 如果是正例那点就在上边如果是反例就在上一个点的右边所以咱们最好的情况就是上来把所有的正例全部找出来就是ROC曲线一直向上最后才开始向右走。 AUC表明的其实是一种顺序关系即是在增大分类阈值也就是让模型判断出来多少正例时正例会比反例被早判断出来的概率也就是对正例的辨别能力那这是如何在ROC曲线上体现出来的呢我们以这个图的第二个点 为例子假设它的坐标为0.1我们可以发现在这个点的右侧每一格m1在ROC图线上都有对应的点每个对应的点都是反例这些反例就是在之后被发现的因为从左下到右上是分类阈值逐渐变大的过程也就是相对偏后那么以我们这张图为例在点0,1的右边的20 - 0* 1的矩阵总共有20格就是在指定阈值下正例比反例早被发现的概率概率 需要归一化。欸那把所有的点的右侧部分的面积加起来归一化不就是AOC不就是正例比反例早发现的概率 同理可得在上边我们可以知道一个点垂直向上形成的单位宽度的矩阵就是对于一个反例来说它比部分正例早发现的概率需要归一化。 于是AUC曲线的另一种表示形式应为
AUC 1 - ℓ-rank
那么我们可以很轻易发现AUC与ℓ-rank的关系了对于我们画的图AUC是右下侧ℓ-rank是左上侧。 但是书上的还写了一个1/2 的等于项这是为什么呢
1/2项的来历
我们说到ROC图线是不断增加阈值画点连线做成的图那么他不一定是一个个例子来的有可能阈值从1% - 2%增加了两个例子这两个例子得到的结果是一个真正例一个假正例这导致真正例假正例都增加了这就形成了一个斜着的线在左上右下就形成了一个三角形这就是1/2项的来历此时AUC也要加一个1/2的等于项。
证明