论文部分内容阅读
随着互联网的发展,科研人员可以轻易的从网络上获取大量的科技文献。但是面对海量的数据,他们很难找到想要的信息。如何帮助科研人员快速有效的获取自己感兴趣的科技文献并辅助他们分析文献内容,已成为一个重要的问题。
本文试图利用自然语言处理、信息检索、机器学习等相关领域理论和技术,建立一个科技文献结构分析与检索系统,以满足广大科研人员的需求。本系统实现了文献检索,篇章结构分析,文章的主题分析和主题综述等功能。
在文献的检索方面,本文对检索的结果根据引用量进行排序以及使用主题模型进行聚类,方便用户更快的找到需要的文献。
在篇章结构分析方面,利用了字体以及坐标位置等信息,分析出文章的篇章结构,识别出页眉页脚和上下标。并利用这些信息来提高元数据抽取的准确率,匹配作者和他们所在的机构。
在主题分析方面,使用了主题模型来分析文章的主题,分析主题随时间的变换,对此主题感兴趣的相关作者。
在主题综述方面,通过匹配引文和参考文献,抽取出文献作者对参考文献的评价,并利用这些评价对文章进行摘要。这种摘要由于是其他作者的观点,一般比较客现。有了每篇文章的摘要,在利用主题模型找出主题下的相关文章,并按照时序和引用关系,生成某个主题下的综述。
本文利用自然语言处理和信息检索的相关技术,最终实现了一个科技文献检索与内容分析系统,为科技工作者提供文献检索、文献内容分析、可视化等帮助,系统本身具体较高的实用价值。