基于Web挖掘的网站逻辑结构生成系统

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jamesfair
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着单个web站点的日益庞大,web超链结构的日趋复杂,传统的建立在单个网页和单纯超链结构上的web模型已很难适应基于各种不同应用需求的web分析。为有效解决web分析所需知识的表示、应用与获取问题,新的web模型应能充分体现网页间的逻辑关联信息以及网站内部的组织结构特征。本文首先建立了一种新的web站点逻辑结构模型,然后提出了三种web逻辑结构挖掘算法并实现了一个完整的web站点逻辑结构自动生成系统。在实验部分,通过对当前几个大型的知名web站点进行实际测试,以及与wen syan li等人的经典算法进行对比测试,表明算法在精度上能够达到较好的水平,而在效率上则有明显优势。本文所作的工作主要有以下几点: (1) 提出了建立在web站点逻辑域及其导入路径之上的web站点逻辑结构模型。 (2) 以上述模型为最终目标,提出了两种逻辑域挖掘算法和一种逻辑域导入路径挖掘算法,分别是:基于网页分块聚类和基于逻辑域核的web站点逻辑域挖掘算法以及基于启发式规则的逻辑域导入路径挖掘算法。 (3) 以上述算法为基础,设计并实现了web站点逻辑结构自动生成系统。该系统能够自动从给定站点的入口地址,抓取回指定数量的网页。对取回的网页,生成其基于超链拓扑结构的有向图和储存每个网页相关信息的网页信息库,并以这两个数据结构为基础,通过运行上述算法,最终得到web站点的整体逻辑结构。 (4) 考虑到算法的可用性,在算法的效率上也进行了较深入的研究。对耗时最多的基于逻辑域核的挖掘算法,其时间复杂度被从O(n~3)降低到k~*O(n~2)(k为常数)。 (5) 在实验部分通过对两种逻辑域挖掘算法进行对比实验,并与wen syan li等人提出的web逻辑域挖掘算法进行对比实验,证明了基于逻辑域核的web站点逻辑域挖掘算法在精度,适应性和效率上有一定优势。而逻辑域导入路径挖掘算法的精度则相对较低,这与采用的启发式规则有关,也是今后要进一步研究和改进的方向。
其他文献
社区结构存在于大规模网络中,具有较高的应用价值和研究价值,已成为近年来大规模复杂网络的研究热点。但是,如何快速、准确地发现网络中的社区结构,仍是一个亟待解决的问题。现有
三维图形系统中要处理大量环境物体和运动物体,碰撞检测(Collision DetectionCD)用来检测运动物体之间或运动物体与环境物体之间是否有碰撞,从而能决定运动物体的下一步动向,
智能客户端结合了C/S与B/S架构的优点,加上面向服务的体系结构提供的高层架构支持,正成为企业应用的主流模式。本文将智能客户端的研究深入到面向服务的领域,概括了智能客户端系
Robot是搜索引擎的关键技术之一,它已经发展为一门涉及人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领域的理论和技术。随着Web信息的爆炸式增长和
本论文的研究工作是基于粤港关键领域重点突破项目“NGN/IPQoS相关技术和设备软件开发”(项目编号:35240-4207044,4207045,4207046)。从项目实践中找到研究点,提出Gq接口的研究与
随着互联网技术的不断发展,网络安全问题也日益突出。防火墙、入侵检测等传统的网络安全技术尽管提供了一定程度的安全防范能力,但由于相互之间协调性等问题,传统的网络安全
近几年来,由于非均衡数据广泛存在于实际的生产与生活中,并且具有特殊性,对非均衡数据分类问题的研究越来越重要,对于这种不同类型数据的数量分布差别较大的数据,传统算法无法得到
目前时空信息系统及时空数据挖掘理论越来越引起专家和学者的关注。这是因为随着信息技术的发展,人们已经不满足于单纯的空间数据的存储和展现,而是需要更先进的手段帮助理解空
目前,由于各种原因的影响,使得我国油田中普遍使用的采油井系统电动机运行时一般工作于轻载或空载状态,使电动机的功率因数、工作效率低下,电能浪费情况比较严重。本课题主要以抽
一个软件系统的特性表现在它的功能性和非功能性(如性能、可靠性、安全等)两个方面。在许多软件系统,尤其是大型软件系统中,非功能甚至是强制的要求,例如电信领域数据仓库中的性