结合机器学习方法的命名实体识别研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:macgrady2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是目前自然语言处理研究的热点问题。MUC(Message Understanding Conferences)对命名实体的定义是:人们感兴趣的专有名词和特定的数量词,它一般可分为:人名、地名、组织机构名、日期等类型。命名实体识别是信息抽取的一个子任务,被广泛地运用到其他计算语言学任务中,比如机器翻译等。与大多数自然语言处理技术一样,命名实体识别的方法主要分为两大类:基于规则(rule-based)的方法和基于统计(statistic-based)的方法。鉴于单独采用基于统计方法或基于规则方法的缺陷,在这篇论文中,采用了统计与规则相结合的方法来识别命名实体。为了使系统具有学习能力,我们把机器学习方法应用于中文命名实体的识别,这里我们着重研究了机器学习中的决策树方法在中文命名实体识别中的应用;设计了一种基于决策树的识别模式,该模式首先利用概率统计方法,在文本中尽量完备地识别出潜在的命名实体,然后利用潜在命名实体相关的上下文词法、语法和语义特征作为属性构建决策树,否定不正确的实体,进一步提高了命名实体识别的准确率。应用以上方法,本文主要对中文命名实体中的人名和地名识别进行了较为深入的研究。实验结果表明,与单纯基于统计和单纯基于规则的命名实体识别方法相比,本文所采用的统计和规则相结合的方法具有更加理想的识别精度;在同样的实验条件下,即同样的训练语料和测试语料的条件下,结合机器学习方法的命名实体识别系统构造简单,并且具有良好的适应性和一定的自我学习的能力。本文具体主要分为以下几个模块:1.文本预处理。2.统计和规则相结合的中文姓名和地名识别。3.结合机器学习中决策树方法的中文姓名和地名识别。4.中文姓名和地名的消歧研究。
其他文献
数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称
在软件测试基础上发展起来的协议测试是协议开发过程中的重要环节。协议测试中的协议一致性测试是最重要的协议测试。通过对协议实现(待测实体)的协议一致性测试,我们可以找
多年以来,面向对象编程(Object-Oriented Programming,OOP)作为软件开发领域的主要编程范式,大大提高了软件代码的模块性、可重用性,降低了软件的复杂度以及软件的维护成本。
随着云计算技术的飞速发展,越来越多的企业或个人将其私有数据上传在云服务器上存储。然而,在享受方便快捷的云存储服务的同时,用户越来越关注其云端数据的安全性和可靠性。
近年来数据流数据库作为数据库领域最为活跃的研究方向已经被公认为处理无限、快速、实时的传感器数据的最佳方案,但是目前大部分数据流数据库都是以精确数据为研究对象。传
便携式电子设备的迅速发展丰富了图像信息的采集形式,如智能手机、小型无人机、行车记录仪等。虽然图像信息的采集更便捷,但是由于便携式电子设备的质量较轻、稳定性较差,易受噪
在数据库和Web技术的引导下,信息系统的数据日趋多样化、个性化和私有化,需要对数据库中的数据进行基于行、列甚至元素级的访问控制,即细粒度的访问控制。而传统在应用层部署
随着网络技术的发展,IP技术将成为语音传输的主要方式。VoIP(Voice over InternetProtocol)是一种建立在IP网络上的分组化、数字化传输技术。VoIP的出现使得人们可以通过互联
当前医疗服务正步入大数据时代,大数据将从新知识的产生、医疗质量的提高、个体化医疗和临床决策等多个层面推动医疗模式从以医师为中心向以患者为中心的改变。医疗健康是一
近年来,随着无线应用需求和市场的不断增长,特别是随着3G技术的到来,无线互联网将得到前所未有的发展。伴随着无线互联网的发展,人们的学习方式也在不断的改变,从传统的课堂