基于用户兴趣本体的初始URLs选择方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:wdswdts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着本体技术的迅速发展,因具有良好的概念层次结构和对逻辑推理的支持,本体在面向知识表达和信息检索方面得到了广泛的应用,并且成为人工智能、语义Web、Web挖掘等领域的研究热点。由于Web技术的快速发展,其海量数据的复杂性、动态性和用户主题的普遍性等特点给现有的搜索引擎发展带来了极大的挑战。怎样在Web中及时地、有效地、精确地定位用户主题资源是提高搜索引擎的检索效率的研究重点。本文将搜索引擎与本体技术相结合,提出主题爬行虫入口—初始URLs选择方法,并从理论和实验角度说明初始URLs对于主题搜索引擎的重要性。首先,通过形式概念分析理论,提出用户兴趣本体的构建方法。具体方法:自下向上合并分类概念格和文档概念格,形成能够表达用户兴趣的优化概念格,通过概念格-本体转化的LMOA规则,最终形成用户兴趣本体。该本体构建的目的是通过描述概念及其间的关系来指导主题爬行虫的行为,选择与主题相关的网页,满足用户的个性化需求。其次,本文在利用Web链接结构的同时,结合用户兴趣本体,提出了基于用户兴趣本体的初始URLs选择方法。该方法的特点是①将用户兴趣本体与HITS算法相结合,一是利用本体信息对HITS算法获取基础集进行修剪,提高HITS算法主题识别能力;二是利用HITS算法得到的权威网页和中心网页描述主题区域,并对用户兴趣本体进行更新,通过用户兴趣本体加权扩展用户的兴趣主题,使之能准确表达用户兴趣需求;②该方法将网页内容和链接分析同时考虑来发现兴趣主题,通过利用图论相关知识,把寻找“核心主题区域”的问题转化为“在完全有向图查找完全二分有向图”的问题,从而降低了算法实现的难度;③利用用户兴趣本体扩展兴趣主题特征向量,并与权威页面集进行相似度计算,重新过滤搜索结果得到最终的初始URLs。最后,利用VC6.0开发应用程序进行验证。实验(1)将十组用户查询词集提交给Wikipedia,对返回的结果进行处理,构建概念格,并构建用户兴趣本体。实验(2)实现基于该本体的初始URLs选择方法,目的是通过此爬行虫入口,返回更对与用户相关的信息。实验表明,通过本文本体构建方法,用户兴趣本体能比较好的表达用户兴趣和知识背景,并消除其语义模糊性。因此,用户兴趣本体为实现个性化主题搜索奠定了基础。另外,通过实验评价了本文提出的初始URLs选择方法。使用本文方法选择初始URLs与任意指定初始URLs提交给普通爬行虫,比较爬行虫在下载相同网页的数量中相关网页数量。另外,通过获取URLs的三种方法进行实验对比,证明了本文提出的基于用户兴趣本体初始URLs选择是有效的。
其他文献
本文首先介绍了移动Ad Hoc网络的基本概念、网络结构特点以及移动AdHoc网络路由协议的特点、分类等,并详细描述了几种典型的无线路由协议:DSDV协议、AODV协议、DSR协议以及TOR
随着计算机和互联网技术的发展,网络信息资源越来越多。为了使人们快速得到自己想要的信息,新的信息获取技术-搜索引擎技术应运而生,并得到飞速发展。但要想获得一个比较全面
近年来,可视化技术飞速发展,自1986年产生至今,在计算机图形学领域得到了广泛重视。很多研究学家开展了此类的研究工作,并取得了长足的进步。在国外,可视化技术已经作为一种
地下空间建造在地质复杂、道路狭窄、地下管线密集、交通繁忙的闹市中心,其安全问题是绝对不容忽视的。地下空间工程不管在施工期还是在运营期都要对其结构进行严格的数据监
为实现节能减排的战略目标,我国已启动了汽车、家电等产品的回收处置,由于回收处置涉及的产业链长、地域分布广,很多产品的处置方案直接影响资源再利用率,并且影响其对于生态环境
粗糙集理论是一种分析处理不完整、不精确、不一致信息与数据的数学理论方法。它是一种不需要额外信息的处理不确定信息的知识发现的数学理论。粒计算是研究多层次粒度结构的
多标记学习作为一种解决多义性对象学习建模的框架,其研究成果已经广泛应用到诸如文本分类、网页分类、场景分类等分类问题中,已然成为了机器学习研究领域的一个热点问题。针
当前云计算作为一项比较流行的信息技术,无论是政府部门还是各大应用厂商,甚至是学术界领域都对它产生了浓厚的兴趣。通俗的讲它可以形成一个巨大的虚拟资源共享资源池,将传
随着技术的发展和对海洋资源的日益重视,产生了许多新的声纳应用需求。而传统的声纳系统在数据管理方面存在诸多问题,如声纳数据间的共享等。采用统一的数据平台,实现对声纳数据
曲线、曲面造型技术主要研究在计算机图像系统环境下对曲线、曲面的显示、表示、设计及分析问题。有理参数表示是几何造型系统中描述参数曲线、曲面的重要表示形式。目前,对