科学数据网格中数据挖掘技术研究

被引量 : 12次 | 上传用户:gjb5000a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网格计算的出现使得大规模跨组织、跨区域的数据共享和协同工作成为可能。在科学研究领域中,现代科学研究的问题空前复杂化,产生了一种崭新的科研协作模式和大科学工程,即“科学研究的信息化”。这就需要以网格为基础,通过Internet联合组成一个共同的虚拟研究团队,共享资源和成果,协同工作,共同完成大型现代科学研究。本文的工作以科学数据网格和科学数据库为背景,致力于在现有海量数据存储和强大计算能力的基础上,通过数据挖掘技术来进一步提升其服务水平。本文的主要研究内容和创新成果包括:(1)科学数据网格环境下的科学数据挖掘系统本文在分析科学数据网格环境下数据挖掘之特点的基础上,提出了网格环境下的数据挖掘解决方案——科学数据挖掘系统。该系统主要由三部分构成:科学数据挖掘系统结构描述了数据挖掘程序中基于多维模型的三层结构;科学数据挖掘工具集提供了大量的数据预处理算法和数据挖掘算法;科学数据挖掘网格服务以网格服务的形式提供了科学数据网格环境下的数据挖掘解决方案。与传统的数据挖掘系统相比,科学数据挖掘系统具有诸多优异的特点,更为适合科学数据网格和科学数据库环境。目前,科学数据挖掘系统已经实际应用于几个数据库中。该系统不仅具有简单的查询检索功能,而且可以进行数据统计分析及知识发现,从而能够进一步提高了数据库提供服务的水平。(2)基于聚类的量化关联规则挖掘算法聚类分析技术是一个把相似的对象分在相同簇、相异对象分在不同簇的分组过程。被发现的簇可以用来解释数据分布的特点。本文提出了一种新颖的量化关联规则挖掘方法,可以解决现有基于布尔型关联规则的挖掘算法不能直接处理类别型和数值型数据的问题。这种方法使用聚类算法把数据库中的交易记录分成若干个簇,然后把簇投影到数值型属性所在的域,形成重叠、有意义的区间。实验结果表明这种方法能够有效地挖掘量化关联规则,并且能够发现现有算法可能遗漏的重要规则。(3)基于过滤器的用户访问模式挖掘针对传统用户访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,本文提出了一个基于过滤器的用户访问模式挖掘系统,给出了日志过滤器的实现和部署机制,并在此基础上提出了相应的用户访问模式挖掘算法。该系统目前已实际应用于科学数据库系统中,能够准确地识别用户和会话,为挖掘算法提供优质的数据,效果明显优于以前直接挖掘Web日志的方法。
其他文献
胡庚申提出的生态翻译学实现了狭隘的微观翻译研究层面向整体性的宏观翻译研究层面的转变.生态翻译学作为胡庚申翻译思想的特识,将“何为译”“谁在译”“怎样译”与“为何译
关系从句作为一种普遍的语言现象,因其独特的句法结构以及在语法理论中的重要作用,一直是语言学者研究的重点和热点。本文对国内外近三十年来的研究关系从句习得的文献进行了
作为高等教育资源中的主要资源之一,经费资源与人力资源和物力资源有着明显的不同之处,经费资源的配置贯穿整个高等教育体系,并以其特有的形式在高等教育活动中发挥着不可替
研究生教育是中国教育的顶端层次,源源不断地国家建设输送高端人才。其质量的高低,是国家生产力发展水平的一个重要体现,也关系着民族的强盛与社会的进步。为了进一步提升教
市场经济是一定意义上的信用经济,市场经济愈发达,愈要求诚实守信。随着经济全球化的快速发展,诚信已成为投资环境不可或缺的要素,它甚至是影响我国能否顺利进行可持续发展的
本文以一种自主研制的索驱动并联多体机器人为研究对象,针对其动力学建模、传动系统设计和轨迹优化的关键性问题展开了深入理论研究,旨在提高该索并联机构在轨迹抓取上的高速
在经济全球化、信息一体化、知识经济时代,高等教育国际化已经被很多国家纳入国家发展战略中,培养具有广阔的国际知识,具有多元文化知识和跨国交流能力的全球公民已成为美国
安乐死合法化至少可以给社会带来如下的益处:避免法律纠纷;维护生命的权力和尊严;合理利用资源;减轻社会和家庭的负担。然而,我国关于安乐死问题的法律还是一个空白。作为一
根据甘肃黑河龙首二级(西流水)水电站大坝面板工程混凝土技术要求,通过初步检测选择Ⅱ级粉煤灰、高性能混凝土外加剂等原材料,采用高性能混凝土配制技术,安排混凝土配合比的
现代汉语中的副词,一直以来都是对外汉语词汇和语法教学的难点与重点之一。本文从对外汉语教学实践中所遇到的留学生习得频率副词“连连”和“一连”的偏误出发,按照邵敬敏先