数字图书馆中跨库检索系统关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：Windows365666151

【摘要】

：

随着Internet的迅猛发展，人们对高效率的信息获取技术的需要越来越迫切，对海量信息进行采集、分析、整理，得到高质量的分门别类的结构化信息，方便用户快捷地浏览查询，是极具现实意

【作者】

：

刘佳宾

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2007年期

【关键词】

：

信息抽取关键词抽取跨库检索系统 DOM树数字图书馆机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅猛发展，人们对高效率的信息获取技术的需要越来越迫切，对海量信息进行采集、分析、整理，得到高质量的分门别类的结构化信息，方便用户快捷地浏览查询，是极具现实意义的重大课题。为适应广大师生教学和研究的需要，中国科学技术大学图书馆先后购买了90多种网络数据库，涉及的门类非常齐全，为中国科大建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异；各个数据库中信息不能统一起来为用户提供更深入的服务，基于这种情况，本论文利用脱机的跨库检索系统解决上述问题。脱机检索系统的最终目的是建立一个脱机的跨库检索系统，实现查询界面和结果界面的统一化，同时深入挖掘文章的信息，为用户提供更深入的服务。本文所研究的就是脱机跨库检索系统中两个重要的技术：文章信息抽取和关键词提取技术。本文的主要技术和创新点为： 1．针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征，本文提出了一种基于学习的抽取模板构造方法。这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板，节省了构造者的时间并且构造出的模板非常准确。 2．提出一种基于决策树和马尔可夫链的在互联网上自动抽取问答对的方法。先根据网页中的HTML标记把网页表示成一棵DOM树；然后利用树中每个节点的结构和文字信息，抽取相应的特征；最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。 3.为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出一种基于机器学习的关键词自动抽取技术，主要是针对数字图书馆中的学术论文的摘要((Abstract)进行抽取。提出以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n＿grams和词性相结合的方法，在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。

其他文献

临床护理带教存在的问题及对策

期刊

Bragg光纤的传输特性研究及其结构设计

Bragg光纤又称全向导波光纤(Omniguide fiber),由Yariv等人在1978年提出。Bragg光纤是一种特殊结构的光子晶体光纤,它的包层具有一维周期性圆对称结构,可以被视为一维光子晶

学位

Bragg光纤能带结构模式传输特性

GPS L2信号USB中频数据采集实验平台设计

随着GPS应用领域的不断深入和扩大,民间客户对GPS系统的要求越来越高,传统GPS系统在使用过程中逐渐暴露出一些缺点和不足,为了使GPS系统能更好的适应当今社会的发展需求,美国

学位

GPS现代化L2C信号射频前端USB采集器

数据挖掘公式发现FDD.1的算法研究及改进

在科学发展史上，各种物理学、化学、天文学中的自然规律都是科学家对大量的实验数据进行深入的研究得到的，如牛顿三大定律、万有引力定律、开普勒行星运行定律等，这些自然定律是

学位

数据挖掘知识发现最小二乘法智能教具公式发现FDD

无线网络中物理层与MAC层的联合优化设计

由于无线信道时变衰落的自然特性和新兴的高速实时多媒体业务对无线网络QoS的要求，传统的那种各个层面独立进行优化和设计的分层式网络结构并不适用于现代的无线网络。因此，人

学位

跨层优化设计自适应链路机会调度正交频分复用接入遗传算法无线网络无线信道

PZT振镜在自由空间光通信精跟踪系统中应用技术研究

随着激光器技术和光电子器件技术的飞速发展，以及人们对通信距离、通信质量的要求的不断提高，光通信技术以其独特的优点，得到了越来越快的发展。空间光束精确的瞄准、捕获、和跟

学位

空间光通信APTPZT驱动器振镜

基于FPGA IPcore的PCI接口设计与应用

随着FPGA(现场可编程门阵列)技术的快速发展,很多制造厂商都开始提供PCI接口核逻辑(IPcore),设计者可以将PCI用户逻辑和PCI核逻辑集成到FPGA里面,并且可以在顶层通过仿真来验

学位

PCI总线FPGAIPcoreWDM

通信测距复合系统中TDOA技术的研究

扩频技术由于具有很强的抗干扰能力、很低的被截获概率、很高的距离鉴别力、良好的码分多址通信能力和很好的通信保密性等特性，在军事／民用通信和遥测、定位领域得到了广泛的应

学位

复合系统链接序列循环谱分析TDOA估计DSP

基于回波数据的SAR运动补偿技术研究

合成孔径雷达(SAR)利用微波遥感技术探测地面物态,是一种通用的侦察、监视和目标瞄准方法。为了获得高的横向分辨率,要求载机沿理想航线飞行。然而,即便是装有高精度的惯导设

学位

合成孔径雷达运动补偿相位补偿多普勒调频斜率相位梯度自聚焦图像复原图像代价函数二维相位梯度自聚焦

移动P2P网络中信息传输建模与性能分析研究

移动P2P为用户存取数据提供了一条经济的途径，无论是在日常生活中，还是国家安全与自然灾害中都具有广泛的应用。而移动设备间的数据传输是实现这些应用的根本。系统中不同的参

学位

MP2P信息传输边界性能移动多样传输时间

数字图书馆中跨库检索系统关键技术研究

与本文相关的学术论文