非结构化文本中领域术语获取方法的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:dongjuanqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方法——词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于Reranking的方法进行领域术语自动获取的研究工作。为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模型的选择和比较是领域术语获取工作的核心。然后本文分别探讨了分类方法、序列数据标注方法、Reranking方法的工作机理和针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的特征表示策略,并通过实验说明了本文提出的方法相比Genia项目提供的baseline方法可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用Reranking进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合形成一个串行的处理流程,即在CRF模型的基础上,通过排序支持向量机对候选标记序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以看到在术语获取问题上,序列数据标注方法优于分类方法,而Reranking方法又在序列数据标注评测结果的基础上有了一定的提高。虽然本文采用的三种统计学习方法相比Genia项目报告的baseline有显著的性能提升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文目前所使用的Reranking方法,可以将代价敏感的排序损失函数引入到rankingSVM中,用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。
其他文献
随着通讯技术的发展和Internet的普及,网络与人们的工作、生活联系越来越紧密,使用搜索引擎从网络中获取需要的信息已经成为了人们的一种习惯。但随着信息量的增大和行为方式的
网络技术的飞速发展,因特网呈现了许多新的趋势,人们对因特网也提出了新的要求。随着选播技术在因特网上的推广应用,用户数量是指数级增加的情况下,必须解决选播通信过程中的瓶颈
Ad Hoc无线网络是没有有线基础设施支持的移动网络,网络中的节点均由移动主机构成。Ad hoc网络中,每个移动终端兼备路由器和主机两种功能。因此,Ad hoc无线网络具有无中心、自组
网络并行计算是一种分布式处理系统,它利用现有高速网络互联的处理机、工作站的软硬件资源,实现以前只有专用且昂贵的大规模并行计算机系统才能完成的高性能计算。与专用的大型
目前,在Internet上广泛采用以集中数据存储和网络管理为核心的C/S模式,日益面临着资源的访问延迟、通信错误、服务器过载以及负载不平衡等一系列问题,严重引起了网络局部负荷过大
心血管疾病已经成为世界范围内威胁人类健康的头号杀手。影像科医师则需要借助一些成像工具对这些成像图像进行观察,对一些疑似病灶,如硬化或者狭窄进行判断和确认。虽然目前心
为加强泛珠三角区域合作信息交流,建立统一、快捷、方便的信息交流平台,根据“9+2”政府的共同意愿,由“9+2”日常工作办公室共同主办,南方新闻网承办,建立本区域枢纽式和门户式泛
自上个世纪90年代末到至尽,Internet的得到了飞速发展,网络已经成为人们获取信息的主要来源。如何使人们从成千上万的网站中快速方便的获取自己想要的资源和信息已经成为当前
尽管多标记学习能够解决很多带有标记歧义性的问题,但是它却不能被很好地应用在不同相关标记相对于示例的重要程度不同的应用场景中。在本文中,我们提出了一种名为标记分布学习
本文对QoS驱动服务合成流程建模、分析及优化进行了研究。文章通过QSC-nets,QoS驱动的特性、服务资源在运行时的动态变化以及服务执行的不确定性,在服务合成模型中都得到显式的