分布式数据挖掘综述

来源 :河北科技大学学报 | 被引量 : 0次 | 上传用户:kocis2815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(DDM)技术应运而生。介绍了DDM的定义与框架、适用场景和研究挑战。根据文中给出的DDM高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。DDM的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用DDM。当前,DDM研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的DDM系统被分为4类:1)基于Multi-Agent的系统,利用Agent的自治性实现局部挖掘以保护数据私有性;利用Agent的主动性减少用户参与以提高挖掘自动化水平;利用Agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于CDM(collective data mining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量。进而,对当前DDM研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的"分割式"挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题。针对结果质量问题,探讨本体与数据挖掘的结合。作为语义网的基础,本体能为对象语义距离度量提供有效支持。当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述DM过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法。通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将DDM理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义距离度量的复合量化体系,通过构建和求解新型DDM模型来实现目标。
其他文献
随着市场经济的发展,建筑业也迅速发展,在这个过程中施工项目质量管理显得相当重要。本文结合国家环保总局经济适用房工程施工实例,重点论述施工项目质量管理过程控制。众所
<正>2014年2月7日,国家主席习近平在俄罗斯索契接受俄国电视台采访时说:"现在,我经常能做到的是读书,读书已成了我的一种生活方式。读书可以让人保持思想活力,让人得到智慧启
期刊
公司董事在法律和公司章程所设定的范围内享有广泛的经营管理权,但是权力必须伴随义务和责任,否则就会造成权力被滥用。国内外通说认为董事的义务主要包括忠实义务和注意义务
广告文化的关系,包括中与外、真与假、雅与俗诸方面。广告文化的中外关系,涉及中外文化的冲突与融合,对此我们应自信开放,洋为中用;当前中国广告真假并存,广告的"假"分显性虚
期刊
下肢缺血性疾病包括血栓闭塞性脉管炎、动脉硬化闭塞症、糖尿病足等,王军主任医师认为其根本病机为瘀、虚、湿热交结互为因果,提倡内外结合治疗,用药颇具特色,临床疗效显著。
行政解散是公司强制解散的一种,是行政机关对公司违反法律、行政法规予以行政处罚的一种,主要包括吊销营业执照、依法撤销公司登记、责令关闭、吊销许可证、责令停产停业等情
综述了近年来脯氨酸催化的直接不对称Mannich反应的研究进展,阐述了对反应底物范围的扩大及反应条件对Mannich反应的影响,还讨论了其优缺点,并对其发展加以展望。
试验比较米蛾卵在4℃(±1℃)低温贮存不同时间后,对赤眼蜂寄生的影响以及赤眼蜂中期幼虫经低温后的表现。结果表明,米蛾卵低温贮存时间越长赤眼蜂对其寄生量越少,米蛾卵经低