论文部分内容阅读
Internet的迅猛增长使得搜索引擎面临前所未有的挑战,搜索引擎如何适应这种规模的急剧膨胀,成为一个备受关注的问题。如何在浩瀚的网络资源中发现有用信息促使了搜索引擎的诞生,而作为搜索引擎中重要组成的网络蜘蛛(web spider)专门负责采集网络资源进行数据储备。传统的基于整个web的采集(scalable web crawling)在网络信息检索中发挥了重要的作用,成为各大门户网站的首选,然而随着网络资源的爆炸式增长,传统的基于整个Web的信息采集需要采集的页面数量十分浩大,这就需要消耗非常大的系统资源和网络资源,然而这些资源的消耗并没有换来所采集到的页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。这是因为,用户往往只关心其中极少量的页面,并且这些页面往往集中在一个或几个主题内,而采集器采集的大部分页面对于他们来说是没有用的;另外刷新如此大量的页面需要很长的周期,这就不能实时反应网络资源的动态变化,造成了一定数量的过期信息;此外传统信息采集技术由于其采集的规模较大,采集页面内容的杂乱,不能根据用户的特定信息以及用户感兴趣的主题进行集中式爬行,容易造成主题淡化和许多相关信息的丢失,多数情况下只能返回一些广泛主题的结果,对明确的特定的主题信息则返回很少。面向主题的搜索引擎可以有选择性的抓取与主题相关的网络资源,识别的依据是一个或一组事先定义的主题,主题特征由样本网页或文本标识,而不仅仅是关键词。它有效减少了采集页面的数量,增加了采集页面的规整程度,并能深入剖析用户感兴趣的主题,返回大量高质量相关信息,这不仅能够大大减少系统对硬件和网络资源的需求,而且还有助于提高抓取的准确率和搜索结果的更新速度,因而以何种策略去访问Web,以期获得更多的相关资源,成为主题搜索的研究热点。本文通过研究现有的主题搜索策略的特点,提出了将形式概念分析这一数据分析工具应用到主题搜索中,将以往仅仅停留在关键词层面的机械式的、外在形式的匹配技术提高到概念匹配的层面,从概念的语义关系层次对文本进行主题相关性分析,通过概念相似度对页面内的URL进行主题相关性预测,因而提出了基于形式概念分析的主题搜索策略。纵观各种搜索策略,将形式概念分析应用于主题搜索,本文是一个新的尝试,主要的研究内容如下:1.概念格作为形式概念分析的核心,是一种有力的数据分析工具。本文通过研究格上概念之间隐含的各种关系以及格结构本身的特点,决定以概念格作为背景来表示用户查询主题,建立用户兴趣主题模型作为基础格。2.重点研究了格上概念之间的继承关系,定义了格上的核心概念和非核心概念,给出了格上概念距离的计算,并提出了三种通过概念距离计算概念相似度的方法。3.提出了基于属性的直接概念匹配方法,给出了虚拟概念的定义,通过在基础格上寻找虚拟概念位置来获取虚拟概念的相似度值,以此相似度值为依据,解决了待访问URL与主题的相关性判定问题,提出了本文的基于形式概念分析的主题搜索策略。4.构建主题搜索系统,获取网络数据,通过平均收成率和F-Measure两种评价指标来检验本文的搜索策略,通过和通用的宽度优先搜索策略进行比较,得出了本文提出的策略是可行的。