基于最大熵模型的中文命名实体识别

被引量 : 0次 | 上传用户:dhamma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究以人名、地名和组织机构名的识别为核心内容的命名实体识别,并对实体的识别方法进行了设计实现。本文主要工作和特点如下: 1、以最大熵为基本框架,基于标注语料库,在不使用人工词典的情况下建立最大熵语言模型。利用局部最优解码算法和动态规划的全局最优解码算法,在字一级实现了人名、地名识别,在词一级实现了组织机构名识别。 2、就最大熵模型的解码问题提出了一种树-栅格解码算法。该算法的优点在于,它可以在随文本长度线性增长的时间复杂度内得到全局最优解和最优N解;能够判断相邻状态是否合法,解决了行动序列(标注结果)中潜在的冲突问题。 3、为了进一步提高模型性能,本文尝试了不同的特征模板集,并给出了对比的数据。实验结果表明,在训练语料集相对较小的情况下,基于最大熵模型的命名实体识别能够获得较为满意的性能。
其他文献
为使隧道工程建设者们对沉管隧道工法的历史、关键技术及发展等有更全面的认识与了解,便于作出较科学合理的判断,按照建设时序、地域和主要技术特点等因素对世界范围内既有的
针对目前大直径盾构在水文地质条件复杂、江河湖海底部等不利环境下,排除盾构故障、清理障碍开舱方法的缺陷,提出盾构压气条件下饱和法开舱作业技术.先根据地质勘查报告了解
物料加热液化分阶段进行升、恒温生产过程,物料温度作为主控变量,各阶段升温过程要求按规定速率进行升温、恒温过程要求按定时定值进行恒温;限值控制执行对主控变量控制存在
首先对科技型企业家柳传志成功带领联想集团从小到大、从弱到强的办企业历程进行简要回顾,进而探究他取得巨大成功的主要原因,总结他经营企业的成功经验。柳传志做企业取得成功
目的:对熊去氧胆酸联合还原型谷胱甘肽治疗原发性胆汁性肝硬化(PBC)的疗效进行评价。方法:将山西省汾阳医院2010年1月~2013年6月60例PBC患者进行随机分组:试验组给予熊去氧胆
我国运输业的发展正在进入一个重要的阶段转换时期,运输系统本身越来越复杂,交通运输与社会经济及资源环境的矛盾越来越突出,对运输方式之间连接性、一体化以及可持续运输发
持续审计是目前审计领域研究的一个前沿问题,我国研究与实施的联网审计也是持续审计的一种实现方式。结合目前我国开展联网审计的现状、特点及需要,研究适合联网审计的绩效评
根据国家关于“两控区”的有关文件,湖北省列为“酸雨控制区”(酸控区)的城市包括:武汉市、黄石市、鄂州市、荆州市、荆门市、潜江市和咸宁市。为了正确制定城市污染控制方案,必须
通过对逻辑分析系统基本原理的介绍,阐述了逻辑分析系统测试数字电路的主要方法和技巧。
<正>在语文教学实践中,语文这一学科总是让人"想说爱你不容易",数学学科学习付出努力后可以让学生拿高分,英语紧随其后,作为三大主科之一的语文没有这样的优势,语文老师凭