论文部分内容阅读
近年来,随着计算机技术的普及以及互联网的快速发展,网络已经成为人类信息资源的重要组成部分。互联网上信息的爆炸式增长,使得来自各个领域的用户从互联网中获取信息变得越来越困难。互联网技术的快速发展产生了很多的应用和相关技术的研究,在这些研究领域中,如何帮助用户方便快捷的找到所需要的信息一直是一个研究热点。从互联网上查找信息的两个主要的方法是浏览和搜索。由于网站结构的复杂化,快速有效的从一个大的站点中定位到用户想要的页面就变得更为困难。为了克服这个问题,不少站点通过提供表示站点主题层次的站点地图来帮助用户浏览。同样,对于搜索引擎来说,将站点的主题层次应用到搜索引擎,可以为用户提供一个更有效的搜索结果呈现的方法。目前,网站提供的站点地图都是由网站制作人员手工添加的,需要花费不少的人力,并且只能覆盖到站点的少部分页面。本文研究的目的是实现一种可以覆盖到站点全部页面的站点主题层次的自动抽取方法。本文概要介绍了近年来国内外站点主题层次抽取算法的基本原理,并分析其各自的优缺点及其适应范围。介绍了主题层次提取的现状及其主要技术,详细分析了基于链接结构的主题层次抽取算法的设计与实现。本文的研究内容主要包括以下几个方面:(1)通过对网站内页面间的链接结构分析,建立起网站的链接结构模型。将站点页面链接结构表示成一个以页面为点,页面间的链接为边的有向图。(2)通过链接指向分析对链接类型进行分类,消除upward链接的影响使基于URL目录信息的链接加权更为准确。引入页面的类型分析,区分页面中的主题入口页面和内容页面。并通过向量空间模型计算出的页面主题相似度来为链接加权,从而完成站点加权链接库的建立。(3)通过对链接结构的有向图中的边进行加权,我们得到整个站点的一个加权有向图。以站点的首页为起点,应用单源最短路径算法,为图中的每一个节点找到一条从根节点到它的最短路,从而抽取出了站点的主题层次结构。(4)对改进的主题层次结构抽取算法的准确性进行评测,并将算法的结果与前人的算法进行对比评测,验证抽取系统的有效性和准确性。最后将抽取出的站点层次信息应用到搜索引擎的结果展示中去,给出带有上下文主题信息的站内搜索演示系统。通过系统演示表明,本文所做的研究,在搜索结果的上下文主题展示上达到了很好的预期效果。