条件马尔可夫模型(CMM)简介——基于统计的词性标注二

/ NLP / 没有评论 / 265浏览

HMM 模型词性标注缺点

如果想了解隐马尔可夫词类标注,请查看隐马尔可夫词类标注 (POS) ——基于统计的词性标注

$$p(S,O) = p(s_{1})\prod_{t=2}^{N} p(s_{t}|s_{t-1}) \prod_{t=1}^{N} p(o_{t}|s_{t})$$

训练时优化的目标是 $p(S,O)$

可以采用Baum-Welch算法训练参数

条件马尔可夫模型

英文名:Conditional Markov Model

针对 HMM 的缺陷,提出条件马尔可夫模型,条件马尔可夫模型是判别模型、有向图模型

如果想了解有向图模型,请查看图模型(Graphical Model)简介——描述随机变量的依赖关系

条件马尔可夫模型的分解式

$$p(S|O) = \prod_{t=1}^{N} p(s_{t}|s_{t-1},O)$$

$$p(s_{t}|s_{t-1},O) = \frac{1}{Z(s_{t-1},O,t)}\exp(\sum_{k}\lambda_{k}f_{k}(s_{t-1},s_{t},O,t))$$

其中

$$Z(s_{t-1},O,t) = \sum_{t} \exp(\sum_{k}\lambda_{k}f_{k}(s_{t-1},s_{t},O,t))$$

如果想了解最大熵建模,请查看最大熵模型 Maximum Entropy——统计建模技术之一

最大熵马尔可夫模型

英文简称:MEMM

最大熵马尔可夫模型 (MEMM) 是一种简化了的条件马尔可夫模型(已被应用于NLP)

$$p(s_{t}|s_{t-1},O) = p(s_{t}|s_{t-1},O_{t}) = p_{s_{t-1}}(s_{t},O_{t})$$

模型训练

条件马尔可夫模型的训练采用极大似然估计法

令训练集为 D={$(S,O)$}

故训练的概率可定义为

$$p(D|\Lambda) = \prod_{S,O} \left [ \prod_{t=1}^{N} p(s_{s}|s_{t-1}, O, \Lambda) \right ]$$

仍属数值最优化问题,可采用数值最优化算法求解参数

对于条件马尔可夫模型,解码仍是 Viterbi 算法

如果想了解Viterbi算法,请查看韦特比(Viterbi)算法与解码问题——隐马尔可夫疑难问题二

标记偏执问题

英文名:Label Bias problem

标记转移分布熵值低的情况,都会有标记偏执问题

标记偏执的原因在于局部归一

$$\sum_{s_{t}}p(s_{t}|s_{t-1},O) = 1$$

标记偏执问题给条件马尔可夫模型的应用性能造成很大负面影响

解决的办法是取消局部归一,代之以全局归一

未完待续