基于图书目录的专题自动生成框架的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tianshi6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的发展,网络数据呈爆炸式增长,如何从海量数据中挖掘有价值的知识成了当前研究的热门。然而,这些网络数据具有来源广泛、无结构、无层次、多噪音等特点。幸运的是,越来越多的图书被数字化存储在数字图书馆中,这些图书中存储着大量的结构化的知识片段。但是,这些知识片段都隐含在海量资源中,且只是按作者意图组织。显然,如果能从这些数字资源中抽取知识片段、关联、重组和融合,形成按照一定目标、主题组织的内容,将会产生更大的价值。然而,据所知,目前对数字图书知识的抽取的相关研究都未能充分利用海量图书的信息。  所以,本文提出了一种新颖的图书专题生成方法,可以从不同图书中抽取知识片段并按专题进行组织。在实践过程中,发现以下问题:  1.现有一些知识抽取的方法对于图书目录并不适用,它们很难完全利用图书目录的结构化信息。  2.不同图书对同一概念的组织和描述方式往往是不同的,这导致同一概念具有不同的层次结构,需要去进行进一步融合。  针对这些问题,本文从如下方面思考并实践了如何从海量图书中抽取知识并将知识组织成专题:  首先,从大量图书中提取出目录,结合图书中特有的特征并利用现有的一些分类方法从目录中抽取出概念。  第二,分析每一本书目录概念之间的关系,从中筛选出符合上下位关系的目录概念并构建概念层次,然后融合相似目录概念。  第三,从网络和图书中为每个概念抽取相关信息,把概念层次组织成专题,并为每一个专题都生成封面,从而使专题信息更直观。  最后,基于这些技术,实现了一个图书专题生成的原型系统。
其他文献
随着网络启动技术的蓬勃发展,网络启动的应用也越来越广泛,比如:网吧,学校教学,大型酒店以及一些需要大量计算机的场所。gPXE (Open-source Preboot Execution Environment)作
随着信息技术的快速发展,第三层交换机已成为网络基础设施中常用设备之一。同时伴随第三层交换机等典型的嵌入式系统的不断扩展,嵌入式实时操作系统早已成为嵌入式系统不可分割
论文对信息检索的应用现状和所采用的技术进行了分析,对面向本体的信息检索技术进行了深入研究。针对旅游领域信息检索效率低下的问题,研究并实现了一个基于领域本体的旅游信
随着我国人口老龄化问题的逐步突出,多功能网络监护成为多方关注的焦点。国外监护产品技术先进、测量结果精确,但价格偏高。国内监护产品价格低,但精度不够。这就提出了本课题,应
自WCDMA、CDMA2000、TD-SCDMA等3G网络投入运营以来,移动数据业务得到越来越广泛的应用。同时,运营商也愈加关注如何在一定的无线资源情况下提高网络服务质量,为用户提供更好
基于MapReduce的并行数据挖掘系统可以极大地提高数据挖掘的效率,使数据挖掘系统拥有强运算能力与海量存储能力,并且系统具有良好的计算与存储横向扩展性。与数据挖掘紧密关联
SOA应用生成的核心--流程构建过程,因缺少语义支持而欠缺灵活便捷性,即需要面向语义的多层次的SOA流程生成平台。基于语义网技术的新型服务流程生成平台应运而生。本文首先介
学位
近年来,空指针引用故障引发的软件安全问题层出不穷,给软件开发公司及用户带来了极大的困扰,也引起了国内外对之进行故障发现的研究热潮。数组空指针故障是空指针引用故障的
在数控加工中,由于各种热源的作用造成机床部件产生热变形,从而严重影响工件的加工精度。除改善机床和加工条件外,在数控系统中进行补偿是解决热变形误差的有效手段,并且补偿方法