基于条件随机场的科研论文信息分层抽取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:a_b_c_d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机文本信息中快速、准确获取有用信息的工具和方法。通过抽取科研论文信息,不仅可以有效地组织和管理这些论文,提高用户检索论文的效率,而且还能够进行大量的统计工作。如论文主题分析及相关论文统计,对期刊、科研单位、某篇论文或某个学者进行引用分析以及发现研究热点和研究趋势等,所以从科研论文中自动抽取信息有着重要的研究价值。当前,基于统计学习的文本信息抽取方法,是一种相对比较新的文本信息抽取模型,取得了很好的效果,被认为有着很好的应用价值,其中,基于条件随机场模型的科研论文信息抽取方法,更是受到了相当的关注。在全面分析各种文本信息抽取方法的基础上,重点研究了利用条件随机场对科研论文信息进行抽取,发现其中传统的单纯基于词或基于块的抽取方法存在着以下不足:①把抽取的文本对象固定为单词,或者固定为文本块,无法根据抽取对象的不同情况,在恰当粒度上灵活地进行切分和抽取;②在抽取的过程中,不能够充分地利用文本所包含的完整的特征信息,以及文本中丰富的上下文信息。这种不足,在处理复合抽取域文本和大信息量的抽取域文本时,表现得尤为明显。因此,在研究国内外相关学者的研究成果的基础上,提出了一种基于条件随机场的科研论文信息分层抽取方法。首先,根据版面格式信息,把开头不为空格的行,与其前面的一个文本行,合并成一个大的文本行,以文本行为基本的抽取单位,从而尽量获得最完整的特征信息;然后,根据科研论文信息分层抽取任务的需要,为条件随机场模型制定合适的特征函数;其次,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的部分判定性特征函数,将输入的文本切分成文本行、块或单个的词等恰当的层次;最后,通过训练获得模型的参数,并对科研论文进行特定文本域的抽取。实验结果表明,该方法的抽取性能,优于基于词或者块的条件随机场模型的信息抽取方法。
其他文献
随着无线射频识别(Radio Frequent Identification, RFID)和传感器等电子数据采集设备(Electronic Data Gathering Equipment, EDGE)的广泛应用,产生了空前海量的事件类型数
近年来,随着互联网的普及,音频流媒体以其低成本和方便性得到了广泛的应用。但是现在的因特网只能提供被称之为尽力而为(best-effort)的服务,网络的拥塞将导致丢包和延迟现象
互联网信息技术和电子商务的日新月异,使得方便快捷的网络购物成为一种不可或缺的购物方式。网络上的服饰商品数量类型繁多,怎样从中有效地搜索到目标商品是决定消费者是否发
随着网络技术的发展和普及,计算机系统的安全性越来越受到人们的关注。由于计算机系统存在多种安全性缺陷,所以在计算机系统的设计和开发过程中,如何测试系统的安全性,是开发
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。向量空间模型是进行大规模文本处理常用的表示模型,而类中心分类
嘴唇动画作为人脸动画中最重要的部分之一,可以应用在影视特效,动画制作,游戏娱乐以及视频会议等诸多领域,具有很大的应用价值和商业价值。本文研究的内容是如何利用视频驱动
医学图像三维重建,是计算机图形学和数字图像处理技术在生物医学工程中的重要应用。医学三维重建技术已经成为医院诊断、治疗的重要依据和手段,在医学诊断、手术规划、模拟仿
大量低成本、多功能、微小体积的传感器节点可以分布在一定的区域中形成大规模的、动态拓扑结构的、应用相关的自组织网络。良好的拓扑结构支持传感器网络中的诸多应用,数据
在传统的汽车车身网络中,大量的电子控制单元使得汽车内部导线的数量大大增加由此导致有限的车内空间被繁多的线束占据。随着电子技术的发展,传统式车身通信网络不再适用,汽