基于语义的科技文献共享平台的信息抽取系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:stslayer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和个人计算机的普及,科技文献的数量以指数的速度激增。如何从科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技文献是十分有意义的事情。而现有的一些信息抽取方法存在适应性差、维护困难、实现复杂、抽取效率不高等缺点。针对以上问题,基于语义的科技文献共享平台-SemreX的信息抽取系统针对科技文献的头部信息(标题、作者和摘要)和尾部信息(参考文献的标题、作者、出版物和年份)的不同特点,提出了基于模板匹配的头部信息抽取算法和基于统计的尾部信息抽取算法,并通过信息抽取预处理、模板定义与匹配、样式统计、多项式拟合等措施,提高了信息抽取的抽准率、召回率、F-measure和正确率。基于模板匹配的头部信息抽取算法基本思想是:分析头部信息的文本特征;根据文本特征定义相应的模板并赋予权值;组合各个头部信息的模板形成头部信息的模板库;按照模版匹配算法,通过有限自动机寻找与待抽取的科技文献头部信息匹配权重最大的模板;根据匹配所得的模板抽取各个头部信息。基于统计的尾部信息抽取算法基本思想是:统计尾部信息的样式和各个特殊符号等信息;对统计数据进行多项式拟合,得到概率经验公式;根据概率经验公式计算各个尾部信息相应的概率并进行比较,从而抽取科技文献尾部信息;采用自然语言处理技术对所得的尾部信息进行验证、修正和补充。基于Windows操作系统平台,采用Java、Perl语言实现了SemreX的信息抽取系统,并且对系统进行了测试。功能测试表明:对于科技文献的头部信息和尾部信息的抽取功能正常。科技文献头部信息抽取性能测试结果表明:科技文献的标题、作者和摘要的抽准率分别为91.9%、86.2%和81.5%;召回率分别为89.1%、84.4%和80.2%;F-measure分别为90.4%、88.5%和80.8%;正确率分别为96.3%、80.2%和88.4%。尾部信息抽取性能测试结果表明:尾部信息的标题、作者、出版物和年份的抽准率分别为89.9%、91.2%、81.9%和88.3%;召回率分别为80.3%、87.3%、78.9%和87.0%; F-measure分别为86.5%、89.1%、80.5%和86.4%;正确率分别为84.9%、84.5%、77.9%和87.6%。
其他文献
利用全色多光谱遥感图像对道路进行自动识别与提取,是近年来研究比较活跃的领域之一,它对城市规划、交通管理、灾害监测都有着重要的实际意义。早期遥感数据因为技术限制,大多是
企业应用集成(EAI)是指通过企业内部网络连接在一起的应用程序和数据源来实现数据和业务的自由共享。由于早期开发的软件系统从规划和技术架构上都没有从整个企业的信息架构
遗传算法(Genetic Algorithm——GA),是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,它是由美国Michigan大学的J.Holland教授于1975年首先提出的。J.Holland教授
为了充分利用企业现有的IT资源,整合企业中计算机孤岛式的应用,向集成化、协作式的方向发展,降低企业管理成本,使资源效益最大化等,很多企业构建了自己的工作流管理系统。这
随着中国经济的蓬勃发展,面向中小企业的信息系统软件市场一片繁荣,但是当前这类信息系统的开发过程仍旧存在诸多问题──工期长、软件质量低,没有完善的配套质量保证手段等
随着数字电视、网络视频流等技术的飞速发展和广泛应用,对数字多媒体信号的存储,处理以及传输的要求变得越来越高,视频压缩技术逐渐成为媒体、广播的最基本组成部分。另一方面,近
语义Web作为目前Web的一个延伸,目标是使Web上的数据具有机器可识别的语义,便于人机之间的交互与合作。然而其实现面临着语义互联、规范组织和智能聚合等理论和技术障碍。为了
本论文是对作者毕业课题研究的一次全面论述和介绍,论文首先介绍了课题的研究背景以及论文的结构。Internet已经成为当今和未来人们获取所需资源和信息交流的主要场所,随之而来
本文首先分析了当前校园网络管理中存在缺乏有效的管理手段、自动处理能力不足、忽略对局域网管理等问题,指出造成这些问题的一个重要原因是缺乏网络拓扑自动发现能力。本文按
随着软件工业的飞速发展,软件的安全日益重要,传统的软件加密、代码模糊化、数字指纹和数字水印等技术已经无法有效的保护软件的完整性安全。软件自检测防篡改技术针对传统软