命名实体识别(Named Entity Recognition,NER)指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:
- 实体边界识别;
- 实体类别判定(人名、地名、机构名或其他)。
停用词
停用词 (Stop Words) ,词典译为“电脑检索中的虚字、非检索用字”。在SEO中,为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为 Stop Words (停用词、静止词)。
停用词即我们在处理文本时出现频率比较高,但是没有统计意义的词。
停用词经常出现在中文语句中,然而对整句含义没有明显的导向作用,仅仅起到承上启下的作用,但是因为其高频次的出现会直接影响以统计学原理为基础的无监督学习方法的效果,所以一般要做去停用词处理。停用词一般分成两类:
- 功能词:在汉语中以多类词性出现,多表指代或功能,如“这”、“那里”、“在”、“的”等。
- 词汇词:如“想要”、“趁着”、“果然”、“什么”等。
未登录词
指在已有全量评论语料中未出现的词。
歧义词
由于语言的多义性,会出现一词多义的现象。
汉语命名实体识别的难点主要存在于:
- 汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;
- 汉语分词和命名实体识别互相影响;
- 除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;
- 现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;
- 不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征
命名实体识别方法
基于规则和词典的方法
基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。
基于规则和词典的方法是命名实体识别中最早使用的方法,它们依赖于手工规则的系统, 都使用命名实体库, 而且对每一个规则都赋予权值。当遇到规则冲突的时候, 选择权值最高的规则来判别命名实体的类型。一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。
基于规则的方法的另外一个缺点是代价太大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。