• 评价指标(Evaluation Metrics)
  • 日期 : 2025-06-13     点击量 : 87

      评价指标(Evaluation Metrics)用于量化模型的性能,帮助开发者比较不同模型的优劣、优化超参数,并确保模型在实际应用中的可靠性。


    一、分类任务(Classification)
    1.基础指标
    (1)准确率(Accuracy)
    适用场景:类别均衡的数据集(如手写数字识别)。
    缺点:对不平衡数据(如欺诈检测)不敏感。
    (2)精确率(Precision)
    意义:预测为正的样本中实际为正的比例。
    应用:注重减少误报的场景(如垃圾邮件过滤)。
    (3)召回率(Recall,灵敏度)
    意义:实际为正的样本中被正确预测的比例。
    应用:注重减少漏检的场景(如癌症诊断)。
    (4)F1 Score
    特点:精确率与召回率的调和平均,适用于不平衡数据。
    2.多分类与高级指标
    (1)宏平均(Macro-Average):各类别指标的算术平均(平等对待所有类别)。
    (2)微平均(Micro-Average):按样本权重计算(大类别主导)。
    (3)ROC-AUC:
    ROC曲线:以假正率(FPR)为横轴、真正率(TPR)为纵轴的曲线。
    AUC值:曲线下面积,衡量模型整体排序能力(AUC=1为完美分类器)。
     
    二、回归任务(Regression)
    1. 均方误差(MSE)
    特点:对异常值敏感(平方放大误差)。
    2. 平均绝对误差(MAE)
    特点:鲁棒性更强,解释直观。
    3. R²(决定系数)
    范围:[-∞, 1],越接近1说明模型解释性越强。
     
    三、生成模型(Generative Models)
    1. FID(Frechet Inception Distance)
    原理:比较生成图像与真实图像在Inception-v3特征空间的分布距离。
    特点:值越低,生成质量越高。
    2. IS(Inception Score)
    意义:衡量生成图像的多样性和可判别性。
     
    四、目标检测(Object Detection)
    1. mAP(Mean Average Precision)
    步骤:
    计算每个类别的AP(在不同召回率下的平均精确率)。
    对所有类别的AP取平均。
    版本:COCO mAP(IoU阈值0.5:0.95)、VOC mAP(IoU=0.5)。
    2. IoU(交并比)
    阈值:通常取0.5作为判定检测正确的标准。
     
    选择指标的核心原则
    任务需求:如医疗诊断注重召回率,推荐系统关注NDCG。
    数据分布:不平衡数据避免使用准确率。
    业务目标:某些场景需自定义指标(如电商结合点击率与购买率)。