中文分词 (Segmentation) 详解——自然语言处理的关键

/ NLP / 没有评论 / 353浏览

什么是分词

通过计算机把组成文本的字串自动转换为词串的过程被称为分词

中文分词

英文名:Segmentation

中文通常需要分词

英文分词

英文名:Tokenization

英语通常不需要分词

分词的方法

基于词表的方法

需要配备词表

最大匹配法

全切分+路径选择

序列标注方法

又叫 “合”词法

提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E

分词结果的评价

准确率

英文名:precision

准确率(P) =切分结果中正确分词数/切分结果中所有分词数*100%

召回率

英文名:recall

召回率(R)=切分结果中正确分词数/标准答案中所有分词数*100%

F-评价

英文名: F-measure

综合准确率和召回率的评价指标,F-指标=2PR/(P+R)

分词的关键

未完待续...