论文部分内容阅读
名实体最初是在MUC(Message Understanding Conference)上被提出的.根据最近的1997年名实体任务的定义,名实体识别包括三个子任务:实体名、时间表示语、数字表示语.其中实体名包括:人名、地名、机构名;时间表示语包括:日期短语和时间短语;数字表示语包括:货币短语和比例值.在信息检索、问答系统、文本分类、信息抽取等中文信息处理领域中,如何正确地识别和分类名实体是一项关键、困难的工作.特别是随着INTERNET的普及,对高速运行的名识体识别系统的要求不断增长.近几年,英文名实体识别做了大量工作,取得了一定的成效.目前,中文名实体识别还处于起步阶段.中文名实体识别由于两个原因使其比英文名实体识别困难得多,第一,在中文句子中,词与词之间没有空格,导致分词的精确度不高;第二,各类名实体没有明显的特征可以区分开(如:英文人名、地名的第一个字母大写).这些都对正确地分类和识别中文名识体提出了挑战.中文词语分析一般包括三个过程:预处理过程的词语粗切分,切分排歧与未登录词识别、词性标注.预处理过程产生的粗分结果是后续过程的处理对象,粗分结果的准确性与包容性,直接影响系统最终的准确率、召回率.采用当前常用的粗分方法,词语粗切分的召回率均不足93.5%.该文实现一种旨在提高召回率同时兼顾准确率的词语粗分模型——基于N-最短路径方法的中文词语粗分模型.根据我们对大规模真实语料库的对比测试,粗分结果的召回率比目前最好的方法至少高出6.4%,与最大匹配法比较,句子召回率提高将近15%.该文将最大熵模型应用到中文名实体识别中,提出了前向和后向(即双向)相结合的最大熵模型训练方法.实验结果表明双向名实体模型比前向名实体模型在地名和组织机构名上的精确度平均提高3%.同时,结合中文名实体的特点,综合考虑上下文信息、词本身信息、词典信息、标记信息和词的构成信息等对中文名实体的影响,给出了适合于中文名实体识别的特征模板,通过对原子特征模板的组合,得到复合特征模板,并以此生成候选特征空间.进而给出特征选择和特征引入算法,对候选特征删选得到有效特征.实验结果表明,考虑特征选择后系统精确度提高2-3%.