任务是给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。
训练数据集中已经有了若干个核心实体以及对应的情感倾向,用来训练模型期望能够给出核心实体而得出合理的情感倾向。
思路
官方的 baseline 给出了最原始的实现思路,首先分成两个部分,第一个部分时命名实体识别,第二部分是做情感分类。
- 命名实体识别
- 遍历每一行样本利用 jieba 将 title 和 content 的部分做分词
- 完成所有行样本的分词后训练出 TF-IDF 模型对分词结果进行向量化,以供后续命名实体识别分类模型使用
- 对每一行样本的每一个分词结果与命名实体表进行比对,如果在集中则标记 1,反之为 0
- 据上述处理后的命名实体训练集训练一个命名实体识别分类器(这里用的 LR,在预测阶段也是依据这里生成多个命名实体结果)
- 情感分类
- 遍历每一行样本,找到每行中包含每一个主实体对应的所有分句,并且对应上每一个主实体的情感类别作为分类模型的类别数据
- 对每一行数据同命名实体识别步骤中一样地做分词和向量化(这里可以优化,明显是重复了)
- 利用训练好的向量化 TF-IDF 模型对第一步包含主实体的分句进行向量化作为训练特征,结合第一步的类别数据训练出一个情感分类模型(这里用的 NB)