未登录词 (OOV) 的精确识别——自然语言处理分词难点二

/ NLP / 没有评论 / 1532浏览

未登录词类别

中国人名

李素丽 老张 李四 王二麻子

中国地名

定福庄 白沟 三义庙 韩村河 马甸

翻译人名

乔治·布什 叶利钦 包法利夫人 酒井法子

翻译地名

阿尔卑斯山 新奥尔良 约克郡

机构名

方正公司 联想集团 国际卫生组织 外贸部

商标字号

非常可乐 乐凯 波导 杉杉 同仁堂

专业术语

万维网 主机板 模态逻辑 贝叶斯算法

缩略语

三个代表 五讲四美 打假 扫黄打非 计生办

新词语

温拿、卢瑟、给力、吊丝、骚年

未登录词识别难度

未登录词没有明确边界

在序列标注法中,未登录词无需单独处理

未登录词识别依据

内部构成规律

即用字规律

中文人名

在汉语的未登录词中,中国人名是规律性最强,也是最容易识别的一类

中国人名一般由以下部分组合而成

张、王、李、刘、诸葛、西门

李素丽,王杰、诸葛亮

老王,小李

王老,赵总

识别方法

计算一个可能的人名字串的概率,若其概率大于某个阈值,则判别为人

外部环境依据

即依据上下文识别