论文部分内容阅读
近年来,随着本体技术的迅速发展,因具有良好的概念层次结构和对逻辑推理的支持,本体在面向知识表达和信息检索方面得到了广泛的应用,并且成为人工智能、语义Web、Web挖掘等领域的研究热点。由于Web技术的快速发展,其海量数据的复杂性、动态性和用户主题的普遍性等特点给现有的搜索引擎发展带来了极大的挑战。怎样在Web中及时地、有效地、精确地定位用户主题资源是提高搜索引擎的检索效率的研究重点。本文将搜索引擎与本体技术相结合,提出主题爬行虫入口—初始URLs选择方法,并从理论和实验角度说明初始URLs对于主题搜索引擎的重要性。首先,通过形式概念分析理论,提出用户兴趣本体的构建方法。具体方法:自下向上合并分类概念格和文档概念格,形成能够表达用户兴趣的优化概念格,通过概念格-本体转化的LMOA规则,最终形成用户兴趣本体。该本体构建的目的是通过描述概念及其间的关系来指导主题爬行虫的行为,选择与主题相关的网页,满足用户的个性化需求。其次,本文在利用Web链接结构的同时,结合用户兴趣本体,提出了基于用户兴趣本体的初始URLs选择方法。该方法的特点是①将用户兴趣本体与HITS算法相结合,一是利用本体信息对HITS算法获取基础集进行修剪,提高HITS算法主题识别能力;二是利用HITS算法得到的权威网页和中心网页描述主题区域,并对用户兴趣本体进行更新,通过用户兴趣本体加权扩展用户的兴趣主题,使之能准确表达用户兴趣需求;②该方法将网页内容和链接分析同时考虑来发现兴趣主题,通过利用图论相关知识,把寻找“核心主题区域”的问题转化为“在完全有向图查找完全二分有向图”的问题,从而降低了算法实现的难度;③利用用户兴趣本体扩展兴趣主题特征向量,并与权威页面集进行相似度计算,重新过滤搜索结果得到最终的初始URLs。最后,利用VC6.0开发应用程序进行验证。实验(1)将十组用户查询词集提交给Wikipedia,对返回的结果进行处理,构建概念格,并构建用户兴趣本体。实验(2)实现基于该本体的初始URLs选择方法,目的是通过此爬行虫入口,返回更对与用户相关的信息。实验表明,通过本文本体构建方法,用户兴趣本体能比较好的表达用户兴趣和知识背景,并消除其语义模糊性。因此,用户兴趣本体为实现个性化主题搜索奠定了基础。另外,通过实验评价了本文提出的初始URLs选择方法。使用本文方法选择初始URLs与任意指定初始URLs提交给普通爬行虫,比较爬行虫在下载相同网页的数量中相关网页数量。另外,通过获取URLs的三种方法进行实验对比,证明了本文提出的基于用户兴趣本体初始URLs选择是有效的。