主题驱动的Web资源发现研究:模型、算法及应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tekken1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网信息的爆炸性增长使Web已经成为世界上最大的信息库.面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需的信息需要耗费大量的精力,甚至难以找到,造成了"信息过载,知识匮乏"的问题.为了解决这个问题,在Web信息检索领域产生了一个新的研究课题,即"主题驱动的Web资源发现".它的基本思想可以概括为:根据用户定义的目标主题,以智能化的主题爬虫从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求.它的理论和技术基础主要包括机器学习、信息检索、概率统计理论和Web新技术.在很多应用领域,例如基于Web的行业分析、在线商业竞争分析和自动构建专题数字图书馆等,主题驱动的Web资源发现系统都富有应用前景,与现有的Web搜索引擎可以形成良好的互补.该文首先介绍了主题驱动的Web资源发现的一些基本概念和主要的研究内容,然后对其中的三个关键问题进行了深入的研究,包括主题爬虫模型和算法,基于超文本分类的页面过滤,以及页面评价算法.为了验证本文提出的模型和算法的有效性,我们设计并实现了一个实验平台iSurfer——一个主题驱动的Web资源发现系统.在该平台上,我们进行了大量的对比实验,实验结果证明了该文提出的模型和算法的有效性.
其他文献
当前的软件项目正面临着需求日益复杂、变更日益频繁,而开发周期越来越短、对软件的质量要求越来越高的矛盾,因此,传统的由个人单独完成整个项目的开发方式变得越来越不现实,
该文在第一章首先介绍了QoS问题的提出、基本概念、度量、QoS的几个关键问题;第二章分析了IP QoS的一般解决途径及其实现机制;第三章给出了IP路由概念,以及几种常见的路由算
遥感通过非接触、远距离探测技术,接收地物对电磁波的辐射和反射信息分析地物的特性,成为了监测和获取地球资源的重要手段。随着光学技术、无线电电子技术和计算机科学技术的发展,遥感图像的空间和光谱分辨率越来越高,遥感数据量已呈现爆炸式增长趋势,而且数据类型不在单一,遥感数据已明显具有大数据特征。遥感大数据应用的计算流程复杂,光谱、时间和空间复杂度高,在传统的单机计算中往往会出现计算和存储的瓶颈,这些都是当
敏捷企业被誉为21世纪最有竞争力的企业组织模式,"敏捷"就是指企业在不可预见的、多变的环境中快速调整适应的能力.开展敏捷企业模式的研究、开发与应用,对于提高中国企业,特
移动自组网是一种有特殊用途的对等式网络,具有无中心、自组织、可快速展开、可移动等特点,同时容易引发安全问题。本文主要研究移动自组网络中内部攻击对网络性能的影响以及安
随着计算机技术、遥感技术、地球物理学以及相关技术的飞速发展,地理信息系统已经在社会各行各业得到了广泛的应用。人们所生活的空间是三维的,但是现有的地理信息系统都是基于
Web Services(Web服务)是建立可互操作的分布式应用程序的新平台,它是一个应用程序,向外界提供能够通过Web进行调用的API接口。Web服务作为新一代分布式技术,它的松散耦合性、跨
随着科技的进步网络技术的发展,互联网已经在各个领域融入我们的生活。面对日益增长的网页数据,如何获取其中有价值的信息或者是所感兴趣的信息,是一个需要面对的问题。为了获取
数据库安全技术是信息安全的重要研究领域。数据库推理控制是研究高安全等级的安全数据库系统的关键技术之一,是保障数据库安全的重要手段。我们将研究多级安全数据库系统属
本论文主要介绍对数字电视系统中的用户管理系统(Subscribe Management System,缩写为SMS)以及它和条件接收系统(Conditional Access System,缩写为CA)之间接口的设计与实现。