基于转换的词类标注(POS)—— 统计规则结合的词性标注

/ NLP / 没有评论 / 551浏览

统计规则结合

使用规则和统计两个方面的特性,应用规则进行标注,规则称为转换

激发环境

英文名:triggering environment

描述了应用该转换需要满足的条件

重写规则

英文名:rewriting rule

又名转换规则,描述了应用规则所要进行的动作

转换规则可以视为一种纠错规则

在转换规则使用前,待标注的句子已经进行过初步标注,转换规则负责改正其中的错误标注

词性标注

词性标注的步骤

初标注器的选择

学习到的转换规则和初标注器有关,选择不同的初标注器学习到的转换规则不同

用学到的规则进行词类标注时,应保证和学习规则时用相同初标注器

转换规则的排列顺序

转换规则的排列顺序是有意义的

规则的使用过程类似于创作油画

激发环境的选择

激发环境的选择确定了利用的上下文知识的多少

Brill 使用激发环境模板来限制可以使用的环境