为什么很多分类模型在训练数据不均衡时会出现问题?
本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。这种“不一致”可能是由于训练数据的样本分布与测试时期望的样本分布不一致,例如,在训练时优化的是整个训练集(正负样本比例可能是1∶99)的正确率,而测试时可能想要模型在正样本和负样本上的平均正确率尽可能大(实际上是期望正负样本比例为1∶1);
也可能是由于训练阶段不同类别的权重(重要性)与测试阶段不一致,例如训练时认为所有样本的贡献是相等的,而测试时假阳性样本(FalsePositive)和伪阴性样本(FalseNegative)有着不同的代价。
[Read More]
安泰杯 —— 跨境电商智能算法
比较麻烦的是商品太多,从中选择 top30 作为候选集,因为之前没有做过推荐系统的内容。
[Read More]
Factorization Machines
因子分解机
在最早使用机器学习预估 CTR 的时候,主要是由人工提取特征,然后使用二分类的逻辑回归来做最后预测。普通的线性模型,我们都是将各个特征独立考虑的,并没有考虑到特征与特征之间的相互关系。
[Read More]
Deep Factorization Machines
Non-Max Suppression
当做目标检测的任务时,可能能够预测得到很多个候选框及其对应的置信度,非极大值抑制 (Non-Max Suppression, NMS) 就是来过滤掉多余的候选框只留下一个最合适的。
[Read More]
Model Selection
模型选择
交叉验证,分层交叉验证(训练集和测试集中的不同类平衡问题),留一法。
[Read More]