论文部分内容阅读
Web网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息。进入21世纪后,随着网络的普及,电子商务的发展越来越多的引起研究者们的关注,期望在这种新型的商务模式下,利用它的诸多优点,获得更多的客户以提高收益。但是,电子商务在加速社会电子化进程的同时,也使“数据爆炸”问题进一步加剧。在茫茫的信息海洋中如何快速有效的获取所需要的有用信息,一直是困扰网上用户的难题。 Web数据挖掘可以从这个信息海洋中提取出所需要的有用知识,在一定程度上解决了用户的困扰。Web网实际上就是一个巨大的异构分布式数据库系统。为了支持高级的、健壮的和可靠的应用,在WWW上应当加强其数据库功能,引进新的机制和概念以便将数据库的功能移植到WWW上。构建这样一个Web数据查询系统,是近几年来计算机技术在电子商务领域中研究的一个热点,本文正是基于这样一个背景下开展研究的。 在本论文中,首先给出了国内外的研究现状和论文本身的意义,以及相关的理论支持。接着,考虑在Internet上Web站点的特点和Web数据多样性的特点以及网络处理的分布性,构建了一个基于Web视图的最优化查询系统模型(WebViews),并对系统中各模块的功能给予了详尽的说明,同时运用了CORBA规范集成各个模块为一个B/S三层结构的查询系统。将系统分成客户层、服务器层、和数据层。 论文接下来根据Web数据的特点,构建了一个清楚且结构良好的Web网站的关系抽象,并使用一种优化手段来转换这些关系抽象的申请查询,来设计一种导航方案。本论文使用ADM(the ARANEUS data model)数据模型的一个子集来描述Web网站。这种基于叭花b视图高效查询系统的研究摘要ADM数据模型是依靠增加链接约束来获取网站上的冗余。论文使用包含约束(i nclusionconstraini),它规定所有能被一个确定的路径访问到的页面,同样也可以使用另一条路径访问到页面。我们使用引导代数(navigational algebra)作为描述导航方案的目标语言,同时我们在研究最优化关系抽象中使用重写规则,将链接约束和包含约束引入到运算中,以便在回答查询中,减少大量需要访问的页面数量。 当根据关系视图发出一个查询时,它被重复的使用重写规则来重写,这个过程产生大量的导航方案来运算查询。这些方案的代价是根据代价模型来评估的。代价模型是用网络访问作为原始的代价参数。用这种方式,就可以查询过程选择一个高效的执行方案。 然后,论文对优化算法做了相关验证性实验,优化结果的有效性,说明了优化算法的正确性。最后是工作小结和未来展望。