歧义(Ambiguity)现象及其消解——自然语言处理分词难点一

/ NLP / 没有评论 / 979浏览

歧义的类型

交集型歧义

字串 AJB 中,若AJ $\in$ D、 JB $\in$ D、 A $\in$ D、 B $\in$ D , 则 AJB 为交集型歧义字段。

D 代表词表

此时, AJB 有 AJ/B、 A/JB 两种切分形式。其中 J 为交集字段。

从小/学/电脑
从/小学/毕业

交集型歧义的链长

交集型歧义字段中含有交集字段的个数,称为链长。

从小学, 链长是 1
结合成分, 链长是 2
为人民工作, 链长是 3
中国产品质量, 链长是 4
部分居民生活水平, 链长是 6
治理解放大道路面积水, 链长是 8

组合型歧义

字串 AB 中,若 AB $\in$ D、 A $\in$ D、 B $\in$ D, 则 AB 为组合型歧义字段。

此时, AB 有 AB、 A/B 两种切分形式。

1. 美军/中将/竟公然说
2.新建地铁/中/将/禁止商业摊点

混合型歧义

同时包含交集型歧义和组合型歧义的歧义字段

这样的/人才/能/经受住考验
这样的/人/才/能/经受住考验
这样的/人/才能/经受住考验

真假歧义

真歧义

歧义字段在不同的语境中确实有多种切分形式

这块/地/面积/还真不小
地面/积/了厚厚的雪

伪歧义

歧义字段单独拿出来看有歧义,但在(所有)真实语境中仅有一种切分形式可接受

挨/批评(√)
挨批/评(×)

发现歧义

歧义消解的前提是发现歧义。分词算法应该有能力检测到输入文本中何处出现了歧义切分现象。

MM和RMM法均没有检测歧义的能力

双向最大匹配

即同时采用正向最大匹配法 (MM) 和 逆向最大匹配法 (RMM) ,简写为 MM + RMM

如果 MM 法和 RMM 法给出同样的结果,则认为没有歧义,若不同,则认为发生了歧义。

MM、 RMM:他/从/马上/下来

在一定条件下(链长为偶数),双向最大匹配法也不能发现交集型歧义

MM:原子/结合/成分/子时
RMM:原子/结合/成分/子时

MM+逆向最小匹配法

可发现组合型歧义

全切分算法

可发现所有切分歧义

提/高/人/民/生/活/水/平
提高/人/民/生/活/水/平
提高/人民/生/活/水/平
提高/人民/生活/水/平
提高/人民/生活/水平

歧义消解

基于记忆的伪歧义消解

鉴于伪歧义的消解与上下文无关, 对伪歧义型高频交集型歧义切分, 可以把它们的正确(唯一) 切分形式预先记录在一张表中, 其歧义消解通过直接查表即可实现

基于规则的歧义消解

P[+R+M+Q+A|Z]+”马上” ——> 马+上

他从大红/马/上/下来
这件事需要/马上/办

“一起” +~V ——> 一+起 我们/一起/去故宫
一/起/恶性交通事故

基于统计的歧义消解

在词图上寻找统计意义上的最佳路径

如何评价最佳路径

基于一元模型进行评价

其他消歧策略