论文部分内容阅读
随着计算机科学技术的发展,网络数据呈爆炸式增长,如何从海量数据中挖掘有价值的知识成了当前研究的热门。然而,这些网络数据具有来源广泛、无结构、无层次、多噪音等特点。幸运的是,越来越多的图书被数字化存储在数字图书馆中,这些图书中存储着大量的结构化的知识片段。但是,这些知识片段都隐含在海量资源中,且只是按作者意图组织。显然,如果能从这些数字资源中抽取知识片段、关联、重组和融合,形成按照一定目标、主题组织的内容,将会产生更大的价值。然而,据所知,目前对数字图书知识的抽取的相关研究都未能充分利用海量图书的信息。 所以,本文提出了一种新颖的图书专题生成方法,可以从不同图书中抽取知识片段并按专题进行组织。在实践过程中,发现以下问题: 1.现有一些知识抽取的方法对于图书目录并不适用,它们很难完全利用图书目录的结构化信息。 2.不同图书对同一概念的组织和描述方式往往是不同的,这导致同一概念具有不同的层次结构,需要去进行进一步融合。 针对这些问题,本文从如下方面思考并实践了如何从海量图书中抽取知识并将知识组织成专题: 首先,从大量图书中提取出目录,结合图书中特有的特征并利用现有的一些分类方法从目录中抽取出概念。 第二,分析每一本书目录概念之间的关系,从中筛选出符合上下位关系的目录概念并构建概念层次,然后融合相似目录概念。 第三,从网络和图书中为每个概念抽取相关信息,把概念层次组织成专题,并为每一个专题都生成封面,从而使专题信息更直观。 最后,基于这些技术,实现了一个图书专题生成的原型系统。