数字图书馆中跨库检索系统关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Windows365666151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,人们对高效率的信息获取技术的需要越来越迫切,对海量信息进行采集、分析、整理,得到高质量的分门别类的结构化信息,方便用户快捷地浏览查询,是极具现实意义的重大课题。 为适应广大师生教学和研究的需要,中国科学技术大学图书馆先后购买了90多种网络数据库,涉及的门类非常齐全,为中国科大建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异;各个数据库中信息不能统一起来为用户提供更深入的服务,基于这种情况,本论文利用脱机的跨库检索系统解决上述问题。 脱机检索系统的最终目的是建立一个脱机的跨库检索系统,实现查询界面和结果界面的统一化,同时深入挖掘文章的信息,为用户提供更深入的服务。本文所研究的就是脱机跨库检索系统中两个重要的技术:文章信息抽取和关键词提取技术。本文的主要技术和创新点为: 1.针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征,本文提出了一种基于学习的抽取模板构造方法。这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板,节省了构造者的时间并且构造出的模板非常准确。 2.提出一种基于决策树和马尔可夫链的在互联网上自动抽取问答对的方法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。 3.为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要((Abstract)进行抽取。提出以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。
其他文献
期刊
Bragg光纤又称全向导波光纤(Omniguide fiber),由Yariv等人在1978年提出。Bragg光纤是一种特殊结构的光子晶体光纤,它的包层具有一维周期性圆对称结构,可以被视为一维光子晶
随着GPS应用领域的不断深入和扩大,民间客户对GPS系统的要求越来越高,传统GPS系统在使用过程中逐渐暴露出一些缺点和不足,为了使GPS系统能更好的适应当今社会的发展需求,美国
在科学发展史上,各种物理学、化学、天文学中的自然规律都是科学家对大量的实验数据进行深入的研究得到的,如牛顿三大定律、万有引力定律、开普勒行星运行定律等,这些自然定律是
由于无线信道时变衰落的自然特性和新兴的高速实时多媒体业务对无线网络QoS的要求,传统的那种各个层面独立进行优化和设计的分层式网络结构并不适用于现代的无线网络。因此,人
随着激光器技术和光电子器件技术的飞速发展,以及人们对通信距离、通信质量的要求的不断提高,光通信技术以其独特的优点,得到了越来越快的发展。空间光束精确的瞄准、捕获、和跟
随着FPGA(现场可编程门阵列)技术的快速发展,很多制造厂商都开始提供PCI接口核逻辑(IPcore),设计者可以将PCI用户逻辑和PCI核逻辑集成到FPGA里面,并且可以在顶层通过仿真来验
扩频技术由于具有很强的抗干扰能力、很低的被截获概率、很高的距离鉴别力、良好的码分多址通信能力和很好的通信保密性等特性,在军事/民用通信和遥测、定位领域得到了广泛的应
合成孔径雷达(SAR)利用微波遥感技术探测地面物态,是一种通用的侦察、监视和目标瞄准方法。为了获得高的横向分辨率,要求载机沿理想航线飞行。然而,即便是装有高精度的惯导设
移动P2P为用户存取数据提供了一条经济的途径,无论是在日常生活中,还是国家安全与自然灾害中都具有广泛的应用。而移动设备间的数据传输是实现这些应用的根本。系统中不同的参