鹤壁市建设工程交易中心网站,直播平台app开发,手机有办法做网站吗,北京网站制作计划一、分类任务常用指标
1. 准确率#xff08;Accuracy#xff09;
定义#xff1a;正确预测样本数占总样本数的比例。优点#xff1a;直观易懂#xff0c;适用于类别平衡的数据。缺点#xff1a;对类别不平衡数据敏感#xff08;如欺诈检测中99%的负样本#xff09;。…一、分类任务常用指标
1. 准确率Accuracy
定义正确预测样本数占总样本数的比例。优点直观易懂适用于类别平衡的数据。缺点对类别不平衡数据敏感如欺诈检测中99%的负样本。应用场景类别分布均匀的简单分类任务如手写数字识别。
2. 精确率Precision与召回率Recall
定义 精确率 TP / (TP FP)预测为正的样本中实际为正的比例。召回率 TP / (TP FN)实际为正的样本中被正确预测的比例。 优点 精确率关注减少假阳性如垃圾邮件检测。召回率关注减少假阴性如癌症筛查。 缺点二者通常存在权衡Trade-off。应用场景 精确率对误报敏感的任务如推荐系统。召回率对漏检敏感的任务如医疗诊断。
3. F1 Score
定义精确率和召回率的调和平均F1 2 * (Precision*Recall)/(PrecisionRecall)。优点综合平衡精确率和召回率适用于类别不平衡数据。缺点假设精确率和召回率同等重要不适用于多分类的复杂场景。应用场景需要平衡假阳性和假阴性的任务如异常检测。
4. ROC-AUC
定义ROC曲线下面积反映模型在不同阈值下的分类性能。优点 对类别不平衡不敏感。反映模型的整体排序能力。 缺点计算复杂度高对类别均衡的简单任务可能不如F1直观。应用场景需要全面评估分类性能的场景如广告点击率预测。 二、回归任务常用指标
1. 均方误差MSE
定义预测值与真实值差的平方的平均值。优点对异常值敏感惩罚大误差。缺点量纲不直观平方单位。应用场景需要强调大误差的任务如房价预测。
2. 平均绝对误差MAE
定义预测值与真实值绝对差的平均值。优点量纲直观对异常值鲁棒。缺点无法反映误差方向。应用场景需要稳健评估的任务如库存需求预测。
3. R²决定系数
定义模型解释的方差占数据总方差的比例。优点无量纲可横向比较不同模型。缺点对过拟合敏感。应用场景解释模型对数据的拟合程度如科学实验建模。 三、深度学习特定任务指标
1. IoU交并比
定义预测区域与真实区域交集面积占并集面积的比例。优点直观衡量分割或检测的定位精度。缺点对边界敏感无法反映类别重要性。应用场景图像分割、目标检测如自动驾驶中的障碍物识别。
2. BLEU双语评估替补
定义通过n-gram匹配评估机器翻译结果与参考译文的相似度。优点快速计算适用于大规模文本生成。缺点忽略语义和语法结构对短文本不敏感。应用场景机器翻译、文本摘要。
3. 困惑度Perplexity
定义模型对测试数据概率分布的逆几何平均。优点直接反映语言模型的预测能力。缺点依赖训练数据分布无法反映生成文本的多样性。应用场景语言模型评估如GPT系列模型。 四、选型建议
类别不平衡优先选择F1、AUC、PR-AUC。异常值敏感MAE优于MSE。多目标优化结合多个指标如目标检测中的mAP。生成任务BLEU、ROUGE、CIDEr结合人工评估。