基于条件随机场的科研论文信息分层抽取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：a_b_c_d

【摘要】

：

面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机

【作者】

：

莫凌琳

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2009年期

【关键词】

：

信息抽取条件随机场科研论文分层文本行

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机文本信息中快速、准确获取有用信息的工具和方法。通过抽取科研论文信息,不仅可以有效地组织和管理这些论文,提高用户检索论文的效率,而且还能够进行大量的统计工作。如论文主题分析及相关论文统计,对期刊、科研单位、某篇论文或某个学者进行引用分析以及发现研究热点和研究趋势等,所以从科研论文中自动抽取信息有着重要的研究价值。当前,基于统计学习的文本信息抽取方法,是一种相对比较新的文本信息抽取模型,取得了很好的效果,被认为有着很好的应用价值,其中,基于条件随机场模型的科研论文信息抽取方法,更是受到了相当的关注。在全面分析各种文本信息抽取方法的基础上,重点研究了利用条件随机场对科研论文信息进行抽取,发现其中传统的单纯基于词或基于块的抽取方法存在着以下不足:①把抽取的文本对象固定为单词,或者固定为文本块,无法根据抽取对象的不同情况,在恰当粒度上灵活地进行切分和抽取;②在抽取的过程中,不能够充分地利用文本所包含的完整的特征信息,以及文本中丰富的上下文信息。这种不足,在处理复合抽取域文本和大信息量的抽取域文本时,表现得尤为明显。因此,在研究国内外相关学者的研究成果的基础上,提出了一种基于条件随机场的科研论文信息分层抽取方法。首先,根据版面格式信息,把开头不为空格的行,与其前面的一个文本行,合并成一个大的文本行,以文本行为基本的抽取单位,从而尽量获得最完整的特征信息;然后,根据科研论文信息分层抽取任务的需要,为条件随机场模型制定合适的特征函数;其次,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的部分判定性特征函数,将输入的文本切分成文本行、块或单个的词等恰当的层次;最后,通过训练获得模型的参数,并对科研论文进行特定文本域的抽取。实验结果表明,该方法的抽取性能,优于基于词或者块的条件随机场模型的信息抽取方法。

其他文献

概率流上复杂事件处理的研究

随着无线射频识别(Radio Frequent Identification, RFID)和传感器等电子数据采集设备(Electronic Data Gathering Equipment, EDGE)的广泛应用,产生了空前海量的事件类型数

学位

概率流复杂事件处理启发式搜索过滤语义向量SVR建模

基于APES的音频数据丢失恢复技术

近年来,随着互联网的普及,音频流媒体以其低成本和方便性得到了广泛的应用。但是现在的因特网只能提供被称之为尽力而为(best-effort)的服务,网络的拥塞将导致丢包和延迟现象

学位

音频流媒体丢包恢复APES频谱估计丢失数据插值MP3解码离散余弦和正弦变换

结合显著性目标检测与图像分割的服饰提取算法研究及实现

互联网信息技术和电子商务的日新月异,使得方便快捷的网络购物成为一种不可或缺的购物方式。网络上的服饰商品数量类型繁多,怎样从中有效地搜索到目标商品是决定消费者是否发

学位

服饰图像搜索服饰提取姿势检测显著性目标检测图像分割

基于事件注入的安全性评测方法的研究与实现

随着网络技术的发展和普及,计算机系统的安全性越来越受到人们的关注。由于计算机系统存在多种安全性缺陷,所以在计算机系统的设计和开发过程中,如何测试系统的安全性,是开发

学位

事件事件注入技术安全性评测

面向三维场景生成的中文语义角色标注方法研究

本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场

学位

语义角色标注文景转换特征空间子结构核函数

结合仿射空间和正交分解的类中心分类法研究

从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。向量空间模型是进行大规模文本处理常用的表示模型,而类中心分类

学位

文本分类类中心分类法仿射空间正交分解线形变换

视频驱动的三维唇动合成

嘴唇动画作为人脸动画中最重要的部分之一,可以应用在影视特效,动画制作,游戏娱乐以及视频会议等诸多领域,具有很大的应用价值和商业价值。本文研究的内容是如何利用视频驱动

学位

嘴唇动画CANDIDE-3Lucas-KanadeFACS

基于CT图像序列的血管结构三维重建方法研究

医学图像三维重建,是计算机图形学和数字图像处理技术在生物医学工程中的重要应用。医学三维重建技术已经成为医院诊断、治疗的重要依据和手段,在医学诊断、手术规划、模拟仿

学位

三维重建分水岭分割Hessian矩阵中心线血管半径

传感器网络中支持聚集操作的拓扑构造算法研究

大量低成本、多功能、微小体积的传感器节点可以分布在一定的区域中形成大规模的、动态拓扑结构的、应用相关的自组织网络。良好的拓扑结构支持传感器网络中的诸多应用,数据

学位

传感器网络拓扑构造聚集

车身网络高层环境的设计与实现

在传统的汽车车身网络中,大量的电子控制单元使得汽车内部导线的数量大大增加由此导致有限的车内空间被繁多的线束占据。随着电子技术的发展,传统式车身通信网络不再适用,汽

学位

分布式控制LIN总线低功耗可靠性模型容错性

基于条件随机场的科研论文信息分层抽取研究

与本文相关的学术论文