任务是给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。

  训练数据集中已经有了若干个核心实体以及对应的情感倾向,用来训练模型期望能够给出核心实体而得出合理的情感倾向。

思路

  官方的 baseline 给出了最原始的实现思路,首先分成两个部分,第一个部分时命名实体识别,第二部分是做情感分类。

  1. 命名实体识别
    • 遍历每一行样本利用 jieba 将 title 和 content 的部分做分词
    • 完成所有行样本的分词后训练出 TF-IDF 模型对分词结果进行向量化,以供后续命名实体识别分类模型使用
    • 对每一行样本的每一个分词结果与命名实体表进行比对,如果在集中则标记 1,反之为 0
    • 据上述处理后的命名实体训练集训练一个命名实体识别分类器(这里用的 LR,在预测阶段也是依据这里生成多个命名实体结果)
  2. 情感分类
    • 遍历每一行样本,找到每行中包含每一个主实体对应的所有分句,并且对应上每一个主实体的情感类别作为分类模型的类别数据
    • 对每一行数据同命名实体识别步骤中一样地做分词和向量化(这里可以优化,明显是重复了)
    • 利用训练好的向量化 TF-IDF 模型对第一步包含主实体的分句进行向量化作为训练特征,结合第一步的类别数据训练出一个情感分类模型(这里用的 NB)

References

  1. 搜狐算法大赛介绍
  2. 搜狐算法大赛:主要实体词情绪识别 baseline
  3. 搜狐内容识别大赛第一名解决方案
  4. 第二届搜狐内容识别算法大赛第一名分享
  5. BiLSTM Baseline 0.284577462254065
  6. SOHU-baseline-0.237
  7. SOHU-baseline-0.3141