论文部分内容阅读
面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机文本信息中快速、准确获取有用信息的工具和方法。通过抽取科研论文信息,不仅可以有效地组织和管理这些论文,提高用户检索论文的效率,而且还能够进行大量的统计工作。如论文主题分析及相关论文统计,对期刊、科研单位、某篇论文或某个学者进行引用分析以及发现研究热点和研究趋势等,所以从科研论文中自动抽取信息有着重要的研究价值。当前,基于统计学习的文本信息抽取方法,是一种相对比较新的文本信息抽取模型,取得了很好的效果,被认为有着很好的应用价值,其中,基于条件随机场模型的科研论文信息抽取方法,更是受到了相当的关注。在全面分析各种文本信息抽取方法的基础上,重点研究了利用条件随机场对科研论文信息进行抽取,发现其中传统的单纯基于词或基于块的抽取方法存在着以下不足:①把抽取的文本对象固定为单词,或者固定为文本块,无法根据抽取对象的不同情况,在恰当粒度上灵活地进行切分和抽取;②在抽取的过程中,不能够充分地利用文本所包含的完整的特征信息,以及文本中丰富的上下文信息。这种不足,在处理复合抽取域文本和大信息量的抽取域文本时,表现得尤为明显。因此,在研究国内外相关学者的研究成果的基础上,提出了一种基于条件随机场的科研论文信息分层抽取方法。首先,根据版面格式信息,把开头不为空格的行,与其前面的一个文本行,合并成一个大的文本行,以文本行为基本的抽取单位,从而尽量获得最完整的特征信息;然后,根据科研论文信息分层抽取任务的需要,为条件随机场模型制定合适的特征函数;其次,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的部分判定性特征函数,将输入的文本切分成文本行、块或单个的词等恰当的层次;最后,通过训练获得模型的参数,并对科研论文进行特定文本域的抽取。实验结果表明,该方法的抽取性能,优于基于词或者块的条件随机场模型的信息抽取方法。