N-最短路径中文分词与基于最大熵模型的中文名实体识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:naonao7949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名实体最初是在MUC(Message Understanding Conference)上被提出的.根据最近的1997年名实体任务的定义,名实体识别包括三个子任务:实体名、时间表示语、数字表示语.其中实体名包括:人名、地名、机构名;时间表示语包括:日期短语和时间短语;数字表示语包括:货币短语和比例值.在信息检索、问答系统、文本分类、信息抽取等中文信息处理领域中,如何正确地识别和分类名实体是一项关键、困难的工作.特别是随着INTERNET的普及,对高速运行的名识体识别系统的要求不断增长.近几年,英文名实体识别做了大量工作,取得了一定的成效.目前,中文名实体识别还处于起步阶段.中文名实体识别由于两个原因使其比英文名实体识别困难得多,第一,在中文句子中,词与词之间没有空格,导致分词的精确度不高;第二,各类名实体没有明显的特征可以区分开(如:英文人名、地名的第一个字母大写).这些都对正确地分类和识别中文名识体提出了挑战.中文词语分析一般包括三个过程:预处理过程的词语粗切分,切分排歧与未登录词识别、词性标注.预处理过程产生的粗分结果是后续过程的处理对象,粗分结果的准确性与包容性,直接影响系统最终的准确率、召回率.采用当前常用的粗分方法,词语粗切分的召回率均不足93.5%.该文实现一种旨在提高召回率同时兼顾准确率的词语粗分模型——基于N-最短路径方法的中文词语粗分模型.根据我们对大规模真实语料库的对比测试,粗分结果的召回率比目前最好的方法至少高出6.4%,与最大匹配法比较,句子召回率提高将近15%.该文将最大熵模型应用到中文名实体识别中,提出了前向和后向(即双向)相结合的最大熵模型训练方法.实验结果表明双向名实体模型比前向名实体模型在地名和组织机构名上的精确度平均提高3%.同时,结合中文名实体的特点,综合考虑上下文信息、词本身信息、词典信息、标记信息和词的构成信息等对中文名实体的影响,给出了适合于中文名实体识别的特征模板,通过对原子特征模板的组合,得到复合特征模板,并以此生成候选特征空间.进而给出特征选择和特征引入算法,对候选特征删选得到有效特征.实验结果表明,考虑特征选择后系统精确度提高2-3%.
其他文献
本文介绍了基于XML的宝钢物资采购网络方案,着重讨论该方案中的三个关键问题:采购决策时,异构数据源数据内容的抽取和其XML表达;不同系统间数据传输共享时,与XML数据模式之间
该文在分析目前中国人民解放军炮兵防空兵气象保障特点的基础上,提出了中国人民解放军炮兵防空兵气象信息系统模式应分为气象信息采集、气象信息处理、气象信息传输三个子系
城市GIS-T系统是一个纵横交错的网格,具有复杂的空间属性、非空间属性,多层次的道路网及其拓扑关系,以及大量交通管理设备的实时动态信息,和需要定期保存、可供恢复的历史数
目前,绝大部分医院都已实施HIS,在各分散的医疗单位积累了一定的信息资源.然而这些有用的电子信息大多局限在本部门使用,共享程度不高.而从信息孤岛状况达到医疗信息社会化,
散射场景深度重建,就是指对浸泡在散射介质中的场景进行深度重建。现有的散射场景深度重建方法分为两类:被动式和主动式;前者基于自然光的传播模型来重建场景的深度;后者则使
Because of the need to ensure that only those eyes intended to view sensitive information can ever see this information, and to ensure that the information arri
互操作性是新一代多媒体通信的发展趋势,而在实时多媒体通信领域中H.263和MPEG-4已经成为两大各具特色的甚低码率(VLBR)视频编码标准,我们关注到ITU-T的H.263在有线网络作为
随着信息时代科学技术的突飞猛进,地理信息系统(GIS)成为了信息技术(IT)的一个重要组成部分,在信息社会中占有越来越重要的位置.因其对时空数据及其属性数据较强的综合分析能
目前移动通信技术仍在不断发展,新的技术、新的设备、新的业务不断出现。电脑彩票电话交易系统是一个典型的基于移动通信技术的小额电子交易系统。目前体彩中心采用“热线系统
随着医疗信息系统的应用,特别是医院POS系统的普及,数据库中收集了大量的关于患者的基本信息、诊断信息、治疗信息还有药品信息和医务人员的信息等.这些信息对决策者做出重大