中文命名实体识别及若干相关问题的研究

来源 :江苏大学 | 被引量 : 5次 | 上传用户:jtzou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体是自然语言中承载信息的重要语言单位。中文命名实体识别是中文信息处理的关键技术之一,随着中文命名实体在各个领域的广泛应用,它既是一项基础性研究也是一项具有较高价值的应用研究。目前,在中文命名识别遇到问题主要是命名实体识别的众多影响因素导致具有复杂结构的命名实体识别效果差;尽管现有方法众多,但是中文命名实体识别仍没有达到较为理想的状态。目前对命名实体中人名、地名识别展开的研究比较成熟,而对机构名识别的研究不够理想。面对构造复杂的机构名获取特征,并运用这些特征来构建相应模型来解决机构名的识别问题以及对现有方法的不足进行改进是尤为重要的。首先,采用层叠式条件随机场模型方法,把处理文本看成一系列观察值,利用底层条件随机场模型对观察值做初步人名、地名识别,接着利用识别的结果传入到高层作为高层的观察值再进一步进行机构名识别;同时在层叠式条件随机场模型之间融合规则的方法来处理具有一定规律的特性的命名实体;在面对条件随机场模型训练耗费时间的问题上引入了一种快速的训练方法。然后,对复杂机构名的错误识别进行分析,指出了其影响因素,并针对其中因素之一(兼类型命名实体)进一步研究,运用了支持向量机模型在二值分类的优点对兼类型人名、地名进行了初步识别;并对简称难识别情况,这一机构名识别影响因素进行初步分析,并根据简称和全称的构词上下文构词特点一致的特性,给出一种以上下文构词组成的引导表结合全称匹配的方法对简称进行识别。最后,分别进行地名、机构名识别,兼类型人名地名以及简称识别等相关实验。针对地名、机构名从不同的语料规模、模板、词性特征等方面进行基于CRF模型的实验对比,给出了本文新方法和现有方法的比较:描述了训练和规则优化的实验结果以检验各优化方法的有效性;给出了兼类型人名、地名识别和简称识别实验结果,并给以初步分析。实验证明本文的方法是行之有效的,对中文信息处理有一定的意义。
其他文献
三维重建技术是计算机应用的一个重要领域,已经在工业生产以及社会生活中得到广泛的应用。根据应用领域与应用特点,三维重建技术在算法难度、工作量或者信息源获取方式等方面
近年来,智能视频监控技术是计算机视觉的一个热点并引起了广泛的关注。多摄像机人体跟踪是智能视频监控的重要组成部分。在多摄像机跟踪中,关键的两个问题是:效果较好的跟踪
随着信息化建设的持续深入,高校的各个职能部门都有了自己的应用系统。这些应用系统在很大程度上方便了广大师生,提高了工作人员的工作效率。但是这些应用系统的大多是由不同
实时系统不仅要保证任务运行逻辑上的正确性,而且还要保证在限定的时间内能够完成指定任务。否则,错过了截止期的实时任务会造成像任务运行出错时一样严重的后果。实时调度算
加强农村现代流通体系是建设社会主义新农村的重要组成部分,而农产品的配送是农村现代流通体系中的重要环节,有效降低农产品配送过程的损耗是当前需要解决的重要课题。一条科学
链路预测(Link Prediction)问题是数据挖掘领域的研究方向之一,因其有重要的理论研究意义和广泛的应用价值而受到各个领域的关注。链路预测指如何根据已知网络的节点属性和网
随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日益丰富,互联网上的
由于现场可编程门阵列FPGA具有可多次重复编程的特点,它赋予了使用者很大的设计灵活性。同时随着FPGA容量的迅速提高和其内嵌的硬核处理器性能的不断提升,FPGA成为嵌入式系统
随着国民经济的快速发展,现代工业向着非线性、大型、综合化方向发展,越来越需要有快速、高效、鲁棒的优化算法的支持。智能计算方法的出现,给这些复杂问题的解决带来了希望
移动Ad Hoc网络是一种多跳、支持移动性、无基础设施、网络拓扑结构动态变化的无线自组织网络,具有组网快捷灵活、配置简便、系统整体抗击摧毁能力强、构造成本低等优点,在军