Handle with Bad Case (Error Analysis)
继续。
CTR 预测:
- FFM
搜索、推荐或广告系统
- 负责小程序账号搜索、内容搜索的排序算法优化、搜索意图识别等相关研究工作。
- 内容质量判定、召回及排序等系列问题。
自然语言处理!
“bad case 分析”
关注 bad case,即分错的样例。具体到本例,比如针对幸存者,我们对从原始训练集中拆分出的测试集进行预测,把预测结果和真实数据做个对比,仔细观察错误项,看到底是什么原因给它分错了,这有助于我们进一步优化特征。
在模型优化过程中,经常分析bad case,可能会发现一些我们忽视的特征 或者特征问题。 例如实际标注为正样本,但是预测出来的确实负样本,且概率特别低的负样本,都是可以作为分析的对象,一般拿一批类似样本分析,就可能会找到问题规律所在。这个也是在模型优化阶段,发现潜在问题的有效手段。
处理思路: (1)找出所有bad cases (2)逐一对每个 badcase 分析找出原因 (3)分析对应的 error 类别 (4)统计不同 error 类别占总体的比例 (5)发现问题的优先级 (6)构思新的优化方法
2.3 Bad-case分析 Bad-case分析也是经常要做的,怎么做呢? 分类问题Bad-case分析:
- 哪些训练样本分错了?
- 我们哪部分特征使得它做了这个判定?
- 这些bad cases有没有共性?例如bad的都是新产品,材质的问题?
- 是否有还没挖掘的特性?分错的样本有没有新的特征是没考虑到的? 回归问题Bad-case分析:哪些样本预测结果差距大, 为什么
Bad-Case 分析 关注错误样本的相关信息:
- 那些样本分错了
- 哪些特征促使模型做出此判断(权值高)
- 这些 bad-case 存在那些共性
- 是否有可以继续挖掘的特性
- 哪些样本预测结果与真实结果差距非常大,以及为什么。