基于元数据集成的分布式垂直频繁模式挖掘方法研究

被引量 : 0次 | 上传用户:gloriayue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临造成数据规模急剧增长以及搜索空间逐渐扩大,这对数据挖掘领域提出了新的挑战,面向大规模数据的数据挖掘需求日趋强烈。为解决传统数据挖掘技术在处理大规模数据集和高维数据时有效性及运行效率差的问题,需要改进现有数据挖掘算法以适应大规模数据和高维数据的实际,提高算法在大规模数据下的执行效率、针对性以及挖掘结果的质量。在充分了解垂直频繁模式挖掘的原理及其在大规模数据环境下面临的问题基础上,提出了基于元数据集成的分布式垂直频繁模式挖掘方法,方法包括基于元数据集成的分布式垂直频繁模式挖掘算法及为进一步提高算法性能的分布式垂直频繁模式负载均衡策略。其中,基于元数据集成的分布式垂直频繁模式挖掘算法包含以下三个部分:首先通过抽样算法抽取少量数据样本,对样本生成规则完成属性关联度计算;然后按照属性关联度进行数据分块,将数据分成若干独立的数据块;最后按照数据分块建立垂直频繁模式树,对垂直频繁模式树进行挖掘。由于采用垂直频繁模式存储结构可以保证挖掘出的结果即为全局结果,因此生成规则无需进行合并。分布式垂直频繁模式负载均衡策略首先按照各局部站点的处理能力及网络处理能力进行站点状态的划分,然后根据站点的不同状态完成任务的分配。最后,对本文提出的基于元数据集成的分布式垂直频繁模式挖掘算法进行了实验分析,实验表明本文提出的基于元数据集成的分布式垂直频繁模式挖掘算法的时间效率在大规模数据集下优于传统关联规则挖掘算法。采用的负载均衡策略在时间效率及负载均衡度上也优于传统负载均衡策略。综上,本文分为以下三个部分:首先分析研究背景及意义,进行相关文献综述;然后提出基于元数据集成的分布式垂直频繁模式挖掘方法,并为进一步提高算法性能给出分布式垂直频繁模式挖掘负载均衡策略;最后对提出方法进行实验分析及性能评价,并进行总结及展望。
其他文献
雾霾天气的增加,过量抽取地下水导致的地面下陷,这些从前很少出现的情况成为目前主流媒体连天播报的主要内容。在经济高速发展的今天,越来越多的环境问题不断影响甚至改变着
家庭农场是在家庭承包经营的基础上建立的,是新型的农业经营主体,是实行农业现代化的重要助力。家庭农场的出现,既稳定了农民与土地的关系,又可以实现农业发展的新局面。随着
昭明太子萧统,作为萧梁皇室未来的储君,人生短暂、英年早逝,仅仅活了三十一年便结束了他的政治生涯,同时结束的还有他的文学生涯。凭借《昭明文选》的编纂,萧统在中国文学史上“一
随着移动互联网不断发展,信息量不断增加,利用数据挖掘技术从海量数据中实现对个人、企业有意义的信息挖掘具有重要的现实意义。因为传统的数据处理及分析的能力有限,云计算
工业遗产是文化遗产的重要组成部分,它们见证着城市工业的兴盛与衰败。在经济不断发展过程中,有些工厂濒临倒闭、破产和迁移,留下大量的工业建筑、生产设备和其他附属设施。表面
证券公司是资本市场的重要中介机构,对资本市场乃至整个金融行业的发展都具有重要意义,我国证券公司大多来源于国有大型金融机构的证券部或地方财政系统,虽然期间经历了证券
公务员激励机制是海关人力资源管理的重要组成部分。随着我国社会、经济、文化的不断发展,海关系统原有的公务员激励机制已经不能较好地适应当前的海关公务员管理,而且对于后
缘于学习戏曲出身,长年置身在色彩缤纷服饰美之中,饱受戏曲艺术美学的熏陶,为我职业服装设计奠定了扎实的设计基础。从事戏剧专职服装设计,运用戏曲服饰的美学观点,我逐渐形
目的观察海洋深层水对泌乳不足乳母的催乳作用。方法采用便利抽样方法于2017年5月至2018年5月给予济南市46名产后乳汁分泌不足乳母海洋深层水,试验期限为9天,与饮用前进行自
原上海市自来水公司浦东水厂在二十世纪八十年代初率先在原八号桥水厂的制水消毒工艺和浦东老厂的原水“恶水”期间“折点加氯”消毒工艺过程中采用10%有效氯的次氯酸钠溶液直