【摘 要】
:
本文首先叙述了数据挖掘软件的发展历史,分析每一阶段软件产品的优缺点,并将其与MSMiner(一个由中科院计算所信息智能国家重点实验室开发的多策略数据挖掘平台)相比较,以此展示
论文部分内容阅读
本文首先叙述了数据挖掘软件的发展历史,分析每一阶段软件产品的优缺点,并将其与MSMiner(一个由中科院计算所信息智能国家重点实验室开发的多策略数据挖掘平台)相比较,以此展示了MSMiner的优点。接着详述了MSMiner的体系结构及主要使用的技术,然后又分模块介绍了各模块的主要功能。本文还重点研究了如何设计和实现一个面向对象的元数据模型,讨论了这种模型的优点及元数据是怎样在整个系统中起到核心的作用的;讨论了ETL在数据仓库中的重要位置,并对设计ETL工具模块要考虑的问题做了研究。以上这些问题的研究为数据仓库的建构提供了一个总体的思路,而建构一个易用、稳定的数据仓库正是进行联机分析处理和数据挖掘的重要基础。最后,本文对数据挖掘的两种基本算法:Apriori算法和B-P算法的计算机实现与优化做了探讨。通过大量的实验及几个应用的实例可以得出结论:经过计算机优化后的算法比原先的算法在大数据集的处理中有着更高的效率和更高的准确性。
其他文献
随着网络的发展和智能上网设备的普及,互联网上的数据发生了极大的改变。多媒体数据的显著增长使得进行不同类型媒体数据之间相互检索的必要性日益凸显,跨媒体检索因此受到了更
该项目是研究PAR方法在数值计算中的运用并用PAR方法来开发数值计算算法.针对研究目标,我们主要进行了以下工作:研究阻碍当前软件发展的主要因素,对现有的形式化法进行了分析
随着科学技术的高速发展和各类结构安全性监测问题的日益突出,大型结构的长期安全健康监测也越来越得到重视。振动测试是结构健康诊断和监测中极其重要的一个环节,因此,人们对振
随着我国工业水平的发展,DCS在工业中的应用越来越普遍。本次研究的目的就是想针对甲醇合成的工艺过程,研究化工生产过程仿真系统的开发方法,进而开发一套具有实用价值的甲醇生
随着软件技术和Internet的迅猛发展,企业信息系统原有的C/S结构越来越不能满足企业计算在分布性、可扩展性和异构性等方面的要求。三(N)层系统构架将业务逻辑从客户层中分离出
该文主要的工作和研究由以下几部分组成:一、针对传统的信息融合模型与具体应用相关的不足,提出了一种具有普遍意义下的信息融合模型.二、分析研究了几种神经网络的融合性能.
在当前数字信息技术高速发展的后PC(Post-PC)时代,随着嵌入式系统应用的深入,出现了各种各样的通用和专用嵌入式实时操作系统.如何测试嵌入式实时操作系统保证嵌入式系统的质
随着计算机技术的发展,自动化控制已在工业生产领域中得到了广泛应用,为达到高效、节能、延长机组使用寿命的目的,大型制冷工程常采用多台小功率制冷机组并联替代单台大功率制冷机组的设计方案。与单台制冷机组相比,制冷并联机组的控制模型复杂、控制过程难度大,世界上制冷并联机组的自动化控制系统尚处于实验阶段、成型产品不多见,控制系统仍基本依靠人工方式实现。由此造成许多显而易见的问题:难于调整平衡制冷并联机组中各
通常,几何定理的证明是依据公理系统,按一定的逻辑规则演绎地进行。对于每一个定理,其证明的方法都是不同的,一种方法只适用于一个定理,没有通用的证明方法或指导思想适合于
在研究现有控制流分析理论的基础上,该文采用基于图论的方法求取控制依赖关系,该方法具有很好的可扩展性和通用性.它主要是通过将控制流图转化成后必经结点树,再根据后经结点