多源数据关联规则增量挖掘研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fairycx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今这个大数据时代,数据往往存储在网络中的多个数据源中,按照传统的数据挖掘方法,需要将数据集中或融合后才能进行有效处理,但在实际应用中存在着各种问题:数据规模庞大、数据结构多样化、隐私保护等。因此,如何在不进行数据集中或融合的前提下对多数据源的数据进行有效地分析挖掘是当前数据挖掘中的一个热点问题。关联规则是数据挖掘中的一个重要研究内容,通过关联规则挖掘可以获得数据之间或属性之间的内在关联,为智能推荐、智能预测等后续工作提供可靠的数据支持。目前,研究者们对静态的集中式数据的关联规则挖掘方式进行了研究,并形成了较完善的研究结果。对于动态数据关联规则的挖掘,虽有一些研究,但还不完善。其中关联规则增量挖掘是动态关联规则挖掘的一个重要方向。现有的高效处理关联规则增量挖掘的算法都是不生成候选项集的,此类算法都是以空间换时间的思路实现的,如何在时间效率不变或变化不大的情况下优化空间是关联规则增量挖掘的一个新问题。除此以外,随着数据多样化的出现,针对不同数据类型的关联规则挖掘也成为了目前的研究热点。本文深入研究了关联规则增量挖掘和多源数据关联规则增量挖掘,主要内容如下:1.关联规则增量挖掘。首先,从现有的关联规则增量挖掘算法中分析比较出了一种时间效率较优的Can树算法。然后,分析研究发现该算法存在空间占用率较高的缺点。针对该缺点,分析出导致该缺点的原因与预排序顺序有关,并提出了基于数据量顺序排序构建Can树的改进方法,从而降低了该算法的空间占用率。最后,通过实验验证了该方法能够有效提高Can树算法的空间效率,并提高了时间效率。2.多源数据关联规则增量挖掘。首先,分析了多源数据的三大特点:多样性、分散性和异步性,以及多源数据挖掘应注意的问题。然后针对多源数据的其中两个特点:分散性和异步性,提出了结合分布式关联规则挖掘和关联规则增量挖掘两类算法的多源数据关联规则增量挖掘算法。最后,通过多组实验验证了该算法可以解决多源数据的分散性和异步性,并针对第二次挖掘比较了多种关联规则增量挖掘算法,选取了其中较优的一种作为算法中的二次挖掘算法。
其他文献
人声覆车流,何处觅清秋。但闻森林响,独依观鸟楼。归鸟不见天,蒹葭摇水间。鱼蟹戏浣女,君子常流连。雨敲湖水急,风动荷叶稀。白鹭立牛角,晚霞醉虹霓。
据交通部黄镇东部长透露,我国投入巨资修建京九铁路的同时,又计划兴建连贯全国的四条动脉式高速公路,并且欢迎海外财团参与兴建。这四条公路分别连接中国东、南、西、北四个
结合某铁路勘测设计一体化平台的建设,通过分析铁路勘测设计行业数据存储与管理的需求,归纳出数据的特点和组织方式,最后建立基于Oracle 11g的分布式数据库系统,并在此基础上实现
结合某供热锅炉房输煤系统扬尘治理,对输煤系统现场出现扬尘的主要原因、治理方案进行探讨,介绍治理效果。产生扬尘的主要原因为防尘罩的结构不合理、防尘挡帘密闭性能差、清扫
微生物基因组作为次级代谢产物发现的天然资源,在新药开发领域具有很高的研究及应用价值。由于负责合成次级代谢产物的基因簇长达数百至数十万个碱基对,而传统克隆技术难以对
根据开放混合MAS的特点,提议了一个形式化的结构模型;在此基础上,引入了递归、即插件、系统涨落等思想,采用扩展的形式化描述语言Z++a给出了该开放混合MAS的形式化定义;提出
南京秦淮船宴里的船菜被许多人津津乐道。说到它的起源,早在春秋时期吴王阖闾就曾船行江上,举行宴饮。古代宫廷、官府和民间均有船宴。它是"食"与"游"的结合,既大饱口福又一饱眼
为了分析轮轨系统在地震荷载激励下的动力响应,根据振动力学和有限元理论,利用ANAYS结构分析软件,建立三维轮轨系统接触的有限元模型,模型中考虑轮轨之间的实际接触状态,计算在地
为实现以成果导向教育的人才培养目标,以环境工程品牌专业建设为契机,环境科学与工程专业对环境监测实验进行了一系列改革。将科研成果融入环境监测实验教学内容,并依托学院科研平台和教育部重点实验室的资源,更新适应社会需求的实验内容和方法。通过改革与实践,激发了学生实验的积极性,培养了学生的科研素养及创新思维,大大提升了学生的实践能力,为他们今后就业和再深造打下了坚实的基础。
124例腹腔内大出血致失血性休克患者,在血源紧张,患者经济困难,病情十分危急的情况下,采用快速输入含钠溶液和及时纠酸的同时,紧急手术中行腹腔自钵血回输,未发现输血反应及