基于规则的命名实体识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:suuuper4w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是自然语言处理的第一步。在实际应用中,分词受到诸多因素的制约,未登录词的切分就是影响分词正确率的重要因素之一。未登录词主要的形式包括人名,地名,机构名等命名实体。因此,将命名实体的识别融合到中文分词的过程中,对提高中文分词的准确率起着重要作用。另外,命名实体识别的研究对于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现具有重要的理论意义和实践价值。本文的主要研究内容如下:(1)提出了融合命名实体识别的中文分词模型,在分词的过程中同时进行命名实体的识别,减少了因为命名实体等未登录词的识别错误而引起的中文词法切分错误,从而提高了分词的准确率。(2)基于本体构建中文人名知识库的层次分类体系,将中文人名领域的知识分成若干个层次,低层次的领域知识是高层次的基础,高层次的领域知识是低层次的概括和总结,有效提高了人名知识库的可维护性。(3)构建命名实体识别的规则库,采用规则匹配的方法识别命名实体。识别系统具有自学习的能力,在识别命名实体的同时可以分析识别结果生成新的规则反馈给规则库,具有较好的命名实体识别的效果。
其他文献
随着计算机与互联网技术的飞速发展,构成整个互联网的网络设备越来越多,网络通信协议作为一种网络通用语言,保证各网络设备间的顺利通信。为了了解网络设备间的通信是否符合
21世纪互联网和信息技术的发展正前所未有地影响和改变着人们的工作、学习和生活。互联网和信息技术的进步在给人们带来快捷、便利的同时,也给残疾人带来了新的机遇和挑战。
随着科技的发展,视频监控已经越来越多地应用于我们的生活。视频监控的精确性以及可回放性,方便了我们解决生活、工作中的纠纷。由于视频采集要求实时性,需要较高的传输速率,成熟
随着我国社会经济的迅速发展,人民生活水平的提高以及高速公路数量的逐渐增加,道路交通的自动化管理越来越成为我们需要亟待解决的问题,智能交通系统的重要性日益突出。车牌
在Web服务组合中,外部子服务通常会定义访问控制策略以保护资源被安全的使用,同时组合脚本中也存在着复杂的逻辑控制结构,这两点因素使安全管理员在描述组合服务的访问控制策
现代大型软件系统,特别是像Eclipse和Firefox这样的开源软件中,随着系统规模的增大和功能需求的增加,会不断有出现新的缺陷被检测和报告出来,因为数量庞大,所以人工地将这些
随着我国电力信息化建设的不断深入,手工录入、图纸设计已经不能满足客观需要,电力通信资源管理信息系统是管理电力行业的通信资源的重要工具,是电力行业规划和组织的重要参
随着流媒体技术和移动通信技术的日益成熟,移动流媒体应用已成为当前移动互联网上最重要、最有活力的应用之一。移动流媒体应用对于网络带宽、容错性、实时性、播放平滑性、
随着计算机和网络的普及,高等学校里纷纷建立了C/S或者B/S结构的教学管理系统。与传统的教学管理系统相比,网上教学管理系统利用局域网为教师和学生带来了便利。本系统总体上
近些年网络发展迅速,传统的计算机安全理论无法适应日趋复杂、变化的网络环境,传统的网络安全技术基本上都立足于防,但是防护技术只能最大量阻止入侵行为的发生或延缓此过程,