自动术语识别的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhao330300096
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了一些经典的自动术语识别(ATR)算法,并对于它们的思想进行深入的分析和总结,并进行了相关的实验比较,对于其中的算法做了量化的评估。通过引入集成排序的思想来提高自动术语识别精准度,并设计了多种方法进行对比分析。本文还进行了半结构化术语抽取问题的研究,提出了自己的解决方法。  首先,本文对于ATR算法的基本思想以及统计学的ATR算法进行概要的介绍,对于这些算法进行了特征分析,对它们的基本原理进行了总结,给出了详细的公式以及示例。领域语料库需要先进行一些预处理之后才能形成候选术语,这样才能够直接应用到基础的ATR算法。本文是基于统计学特征的算法,因此从不同的方面来描述统计学的信息显得尤为重要,并因此而通过成熟的ATR算法来参考其特征提取。  为了进一步提高ATR算法的识别精准度,本文引入排序集成的思想来进一步处理术语识别的问题。即在多个有序序列的基础上进行集成,形成一个新的序列。这样的一个序列是加强了有效的特征,使术语的重要特征能够更加明显的表现出来。已有一些基础的集成方法可以进行处理来形成新的排序序列,但这样的序列并不能保证满足一些基本的投票标准。本文采用了局部Kemeny最优方法处理术语识别问题,在尽量降低多组序列逆序对之和的基础上,保持较高的执行效率。该方法先在多个ATR算法产生的序列集上使用基础的集成方法生成一个初始的集成序列,然后再进行局部Kemeny最优化,使其能够与初始集成序列保持一致,同时又满足孔多塞标准。这样的方法能够保持一个较小的SK值,使孔多塞赢家保持在序列的前面。  除此以外,本文还进行了半结构化文档自动术语提取的研究。互联网中有海量的数据信息,如何利用上面的资源进行领域术语的提取并构建相关的大量应用将具有非常重要的前景。从数据源中获取半结构化的领域语料库后,首先是对于半结构化文档资源进行文本的抽取和整理。特别是对于不规范的文档需要使用了相关的抽取工具进行处理,将其标签结构等问题规范化。  对于规范的半结构化文档,鉴于其具有树状结构,将其抽取成一个DOM树,然后以数据文本为基本单位进行属性特征的提取,数据文本往往分布在其叶子节点当中,候选术语是在单个数据文本里面经过相关预处理后生成的。经过分析文档组织结构和大量的试验对比,本文使用了数据文本的长度、超链接属性和结构层级等信息来进行统计实现,在解析文档的过程中需要对于这些半结构化属性进行记录,这样在该数据文本上的生成的候选术语便有了相应的半结构化属性值。对候选术语上的各个属性信息进行统计计算,以各个属性分别产生半结构化信息上的序列,生成序列集。然后去掉标签文本和其他非数据文本后,形成纯文本的数据文件。参考传统的ATR算法,采用其中一些重要的统计学特征,实现算法提取出候选的术语,并形成一个独立的排序序列。综合这两方面的实现,进行线性加权得出最终的候选术语分值。
其他文献
学位
将企业内部的信息化数据进行整合与统一管理,对于企业的生产、经营、管理、决策和发展是至关重要的。为了解决企业业务种类繁多而带来管理的复杂性、事务处理的滞后性,本论文
多模态人机交互是建立未来指挥所系统的重要研究内容。口语是人类最直接、最自然和最有效的一种交互方式,将口语对话技术应用于处理指挥所事务、获取信息,不仅降低了指挥人员的
近年来,基于位置的服务(Location Based Service,简称LBS)[1]越来越丰富,在路书应用、休闲、社交等许多领域涌现出大量新型的LBS。这些应用的用户规模大,使用频繁,产生的数据量多,
随着计算机网络的快速发展,各种攻击手段也层出不穷,SYN(Synchronize)洪泛攻击就是其中一种比较常见且较难检测和防御的攻击手段。现有的SYN洪泛攻击检测方法普遍在准确性与
随着无线传感器网络研究及应用的飞速发展,传感器节点的能量局限性问题已经成为制约其发展的重要因素。下一代基于能量捕获的无线传感器网络被看作是解决这一问题的最佳方案,因
随着网络技术的高速发展和嵌入式数字处理平台的异军突起,视频监控系统正在向数字化、系统化、集成化、网络化、智能化的方向发展。数字视频要想获得成功,需要四个主要要素,
传统的对RDF(Resource Description Framework)数据存储的方法主要采用基于关系数据库方式的三元组表,但由于RDF数据的稀疏性特点,使得这种存储方式的存储空间利用率和查询效
随着机器人技术的不断发展,服务机器人的应用领域越来越广泛,除了工业、农业等传统域外,在医疗、文娱、家居等诸多环境中得到了广泛的应用;同时人们对生活质量的要求不断提高,服务
颈部动脉血管的内中膜厚度是反映动脉粥样硬化的重要指标。临床中广泛采用超声成像方法获取颈动脉血管图像,之后由医生手工定点或边界描绘测量内中膜厚度。为解决医生工作量