论文部分内容阅读
随着Internet的迅猛发展,人们对高效率的信息获取技术的需要越来越迫切,对海量信息进行采集、分析、整理,得到高质量的分门别类的结构化信息,方便用户快捷地浏览查询,是极具现实意义的重大课题。
为适应广大师生教学和研究的需要,中国科学技术大学图书馆先后购买了90多种网络数据库,涉及的门类非常齐全,为中国科大建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异;各个数据库中信息不能统一起来为用户提供更深入的服务,基于这种情况,本论文利用脱机的跨库检索系统解决上述问题。
脱机检索系统的最终目的是建立一个脱机的跨库检索系统,实现查询界面和结果界面的统一化,同时深入挖掘文章的信息,为用户提供更深入的服务。本文所研究的就是脱机跨库检索系统中两个重要的技术:文章信息抽取和关键词提取技术。本文的主要技术和创新点为:
1.针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征,本文提出了一种基于学习的抽取模板构造方法。这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板,节省了构造者的时间并且构造出的模板非常准确。
2.提出一种基于决策树和马尔可夫链的在互联网上自动抽取问答对的方法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。
3.为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要((Abstract)进行抽取。提出以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。