论文部分内容阅读
计算机技术及Internet的迅速发展与广泛应用促进了信息时代的到来,尤其是科技文献的网络化更是为人们展开科学研究提供了方便,但同时网络中大量文献资源的无序、非结构化的状态也导致了文献检索的困难,因此对它们进行合理、有效的组织就成了提高文献检索效率的重要前提。 传统的文献组织方法不能很好地体现文献内容间的关联,而被称为“电子索引”的新兴组织技术——主题地图是适应文献资源的网络化而产生的,它结合了传统组织方法的优点,可以通过主题及其之间的关联来对文献内容进行有效的组织,并能通过主题间复杂的关联提供资源导航机制。本文正是以此为着眼点,提出了基于主题地图的文献组织方法。 本文的核心工作可以概括为以下几点: (1)采纳主题地图中主题、关联、事件的概念,将主题域进一步分为多层,提出了一个基于主题地图的多层文献组织模型:从文献内容中概化出能表达文献类别的主题,并根据文献类别的不同定义主题位于不同的层次;通过各层主题之间的关联来表达领域文献间的关联。 (2)分析了模型的一般构建方法并将构建过程概括为三个模块:文本表示、文本聚类和主题地图的生成,并在扩展的布尔模型的基础上,提出了文本间相似度的计算方法,然后在传统的凝聚层次聚类方法的基础上,提出了一种基于扩展布尔模型的多阶段层次聚类方法来进行主题概念的逐步概化。 (3)对模型在文献检索中的应用进行了初步探讨,包括两方面:导航浏览和基于语义相似度计算的条件查询。 本文最后以“信息检索”领域为例从中选择了252篇文献进行试验,构建了一个4层的主题地图并以此为基础开发了一个文献检索原型系统。试验结果证明,应用主题地图进行文献组织能在很大程度上提高组织效率并能为用户的文献检索提供方便的导航机制,可以实现有效的文献资源组织与检索。