词性标注(POS)各大方法汇聚——自然语言处理的核心

/ NLP / 没有评论 / 478浏览

词性标注的难点

未登录词

如果对未登录词不了解,请点这里

未登录词视作兼类词,可能是任何一个词类,均匀分布

对未登录词可以采用下列方式来处理

未登录词的词性标注是难点

规则词性标注

方法描述

查词典,给句中各词标记所有可能的词类标记
应用规则,逐步删除错误的标记,最终只留下正确的标记

统计词性标注

可查看隐马尔可夫词类标注 (POS) ——基于统计的词性标注

统计规则结合

可查看基于转换的词类标注(POS)—— 统计规则结合的词性标注

决策树词性标注

神经网络词性标注

最大熵词性标注

未完待续