论文部分内容阅读
网格计算的出现使得大规模跨组织、跨区域的数据共享和协同工作成为可能。在科学研究领域中,现代科学研究的问题空前复杂化,产生了一种崭新的科研协作模式和大科学工程,即“科学研究的信息化”。这就需要以网格为基础,通过Internet联合组成一个共同的虚拟研究团队,共享资源和成果,协同工作,共同完成大型现代科学研究。本文的工作以科学数据网格和科学数据库为背景,致力于在现有海量数据存储和强大计算能力的基础上,通过数据挖掘技术来进一步提升其服务水平。本文的主要研究内容和创新成果包括:(1)科学数据网格环境下的科学数据挖掘系统本文在分析科学数据网格环境下数据挖掘之特点的基础上,提出了网格环境下的数据挖掘解决方案——科学数据挖掘系统。该系统主要由三部分构成:科学数据挖掘系统结构描述了数据挖掘程序中基于多维模型的三层结构;科学数据挖掘工具集提供了大量的数据预处理算法和数据挖掘算法;科学数据挖掘网格服务以网格服务的形式提供了科学数据网格环境下的数据挖掘解决方案。与传统的数据挖掘系统相比,科学数据挖掘系统具有诸多优异的特点,更为适合科学数据网格和科学数据库环境。目前,科学数据挖掘系统已经实际应用于几个数据库中。该系统不仅具有简单的查询检索功能,而且可以进行数据统计分析及知识发现,从而能够进一步提高了数据库提供服务的水平。(2)基于聚类的量化关联规则挖掘算法聚类分析技术是一个把相似的对象分在相同簇、相异对象分在不同簇的分组过程。被发现的簇可以用来解释数据分布的特点。本文提出了一种新颖的量化关联规则挖掘方法,可以解决现有基于布尔型关联规则的挖掘算法不能直接处理类别型和数值型数据的问题。这种方法使用聚类算法把数据库中的交易记录分成若干个簇,然后把簇投影到数值型属性所在的域,形成重叠、有意义的区间。实验结果表明这种方法能够有效地挖掘量化关联规则,并且能够发现现有算法可能遗漏的重要规则。(3)基于过滤器的用户访问模式挖掘针对传统用户访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,本文提出了一个基于过滤器的用户访问模式挖掘系统,给出了日志过滤器的实现和部署机制,并在此基础上提出了相应的用户访问模式挖掘算法。该系统目前已实际应用于科学数据库系统中,能够准确地识别用户和会话,为挖掘算法提供优质的数据,效果明显优于以前直接挖掘Web日志的方法。