论文部分内容阅读
随着Internet和个人计算机的普及,科技文献的数量以指数的速度激增。如何从科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技文献是十分有意义的事情。而现有的一些信息抽取方法存在适应性差、维护困难、实现复杂、抽取效率不高等缺点。针对以上问题,基于语义的科技文献共享平台-SemreX的信息抽取系统针对科技文献的头部信息(标题、作者和摘要)和尾部信息(参考文献的标题、作者、出版物和年份)的不同特点,提出了基于模板匹配的头部信息抽取算法和基于统计的尾部信息抽取算法,并通过信息抽取预处理、模板定义与匹配、样式统计、多项式拟合等措施,提高了信息抽取的抽准率、召回率、F-measure和正确率。基于模板匹配的头部信息抽取算法基本思想是:分析头部信息的文本特征;根据文本特征定义相应的模板并赋予权值;组合各个头部信息的模板形成头部信息的模板库;按照模版匹配算法,通过有限自动机寻找与待抽取的科技文献头部信息匹配权重最大的模板;根据匹配所得的模板抽取各个头部信息。基于统计的尾部信息抽取算法基本思想是:统计尾部信息的样式和各个特殊符号等信息;对统计数据进行多项式拟合,得到概率经验公式;根据概率经验公式计算各个尾部信息相应的概率并进行比较,从而抽取科技文献尾部信息;采用自然语言处理技术对所得的尾部信息进行验证、修正和补充。基于Windows操作系统平台,采用Java、Perl语言实现了SemreX的信息抽取系统,并且对系统进行了测试。功能测试表明:对于科技文献的头部信息和尾部信息的抽取功能正常。科技文献头部信息抽取性能测试结果表明:科技文献的标题、作者和摘要的抽准率分别为91.9%、86.2%和81.5%;召回率分别为89.1%、84.4%和80.2%;F-measure分别为90.4%、88.5%和80.8%;正确率分别为96.3%、80.2%和88.4%。尾部信息抽取性能测试结果表明:尾部信息的标题、作者、出版物和年份的抽准率分别为89.9%、91.2%、81.9%和88.3%;召回率分别为80.3%、87.3%、78.9%和87.0%; F-measure分别为86.5%、89.1%、80.5%和86.4%;正确率分别为84.9%、84.5%、77.9%和87.6%。