规则与统计相结合的中文命名实体识别

被引量 : 0次 | 上传用户:ifeelart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。由于汉语的书写习惯,词与词之间的边界标志是隐含的,对于大多数汉语处理系统来讲,首先要做的工作就是分词。而在实际应用中,分词仍然受到诸多因素的制约。其中,命名实体是制约分词精度提高的最主要原因,其识别的好坏将直接影响分词的精度以及其后的词性标注和句法分析的精度。另外,命名实体识别的研究还有利于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。目前,国内外关于中文命名实体识别的研究仍然存在着识别的自动化程度不高,忽视了词法、句法及语义信息的作用等问题,并且大部分的研究只是针对人名的识别,而对于地名和机构名识别的研究还不够成熟。针对上述不足,本文以中文人名、译名、地名和机构名的识别为研究重点,提出了一种规则与统计相结合的一体化解决方案,该方案采用了双层命名实体识别模型来识别包括嵌套地名和机构名在内的多种命名实体。该双层命名实体识别模型的实现思想是:首先,在分词之前建立第一层命名实体识别模型,该模型由名实体检索算法实现,该算法利用命名实体的特征词,如人名的姓氏、地名的后缀词来引发命名实体的识别,并根据词法规则信息和命名实体的用字统计信息来识别部分命名实体;然后,在分词之后所得到的N个合法分词序列的基础上,引入第二层命名实体识别模型——基于隐马尔科夫的统计模型,该模型可以识别人名、译名、地名和机构名,并利用第一层模型所识别出来的命名实体识别嵌套的地名和机构名。本文重点讨论了如何在分词之前和分词之后分别设计和实现命名实体识别模型,并考虑将该双层模型结合到已建立的汉语句法分析系统的分词子系统中,既保证命名实体识别与并发检索-综合排歧分词子系统的兼容性,又能够较好地支持基于二元关系模型的汉语句法分析系统。在双层识别模型中,第一层模型能够很好地支持第二层模型识别出复杂结构的命名实体,二者相辅相成,很好地解决了由分词导致的命名实体误识别和漏识别问题。并且,为了保证隐马尔科夫模型识别命名实体的时效性,还采用了一种基于动态规划思想的过滤解码算法。通过对系统的测试发现,该模型识别命名实体的准确率和召回率都达到了90%以上,能够较好地保证汉语句法分析系统正确分析包含命名实体的句子的结构。因此,本文所提出的双层命名实体识别模型具有一定的研究意义和实用价值。
其他文献
现行会计准则重新引入了公允价值,本文试图将公允价值的应用与盈余管理结合起来,研究投资性房地产业务使用公允价值计量下的盈余管理。
针对瓦斯与自然发火防治中存在的顾此失彼、治理措施相互干扰影响大等问题,结合3±219半孤岛工作面的实际情况,确定了预防为主的自然发火治理思路,重点采用了采空区自然
<正>谵妄是老年患者术后最常出现并能够危及生命的严重并发症,年龄65岁及以上患者术后谵妄的发生率为5%50%[1]。谵妄的发生常导致一系列不良临床结局,包括严重术后并发症、延
<正>在日常作文训练中,常常见到"情感的伪化",一套空话连篇的"文字泡沫",全不见少年出乎自然的纯真和独特体验。这些陈词滥调的背后,是学生对作文兴趣的消退,真情失落已成为
从听前、听中、听后三个阶段分析如何在教学过程中运用PWP教学模式展开初中英语听说教学,提出在初中英语听说教学中需要注意的问题,认为教师要精心研究听力文本,用心设计教学
<正>创新投融资机制是深入推进新型城镇化建设的重要内容,国家和地方均出台了关于加快县域投融资平台建设的文件,以期促进县域经济发展和县城建设。各项宏观经济数据表明,县
首先介绍了四自由度搬运机器人的结构特点,然后针对普通示教再现作业方式,提出了码垛机器人离线编程方法。重点对搬运机器人离线码垛过程进行了研究,通过码垛关键参数的输入
由于生态环境问题的日益严重,政府、企业和各种组织和个人越来越关注环境保护。随着可持续发展理念在各国的深入,绿色浪潮席卷全球,也波及到供应链管理领域。采购与供应活动
过滤与分离是当今各个工业领域与新发展的科技领域中不可或缺的科学技术。其技术水平的高低、设备质量的优劣、操作水平的合理科学,以及能耗的高低是保证工业生产过程现代化、
本文简述了汽车制造业目前的处境,介绍了RFID技术原理、构成,综述了国内外对于RFID在汽车装配上应用研究现状,指出了目前RFID在汽车装配应用中存在的问题,展望了RFID在汽车装