Resampling For Imbalanced Dataset

不均衡样本集的重采样

为什么很多分类模型在训练数据不均衡时会出现问题? 本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。这种“不一致”可能是由于训练数据的样本分布与测试时期望的样本分布不一致,例如,在训练时优化的是整个训练集(正负样本比例可能是1∶99)的正确率,而测试时可能想要模型在正样本和负样本上的平均正确率尽可能大(实际上是期望正负样本比例为1∶1); 也可能是由于训练阶段不同类别的权重(重要性)与测试阶段不一致,例如训练时认为所有样本的贡献是相等的,而测试时假阳性样本(FalsePositive)和伪阴性样本(FalseNegative)有着不同的代价。 [Read More]

Non-Max Suppression

  当做目标检测的任务时,可能能够预测得到很多个候选框及其对应的置信度,非极大值抑制 (Non-Max Suppression, NMS) 就是来过滤掉多余的候选框只留下一个最合适的。 [Read More]