基于相关性的数据流聚类及其应用研究

被引量 : 0次 | 上传用户:xphan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上世纪末,为适应网络监控、入侵检测、情报分析、商业交易管理和分析等应用的要求,数据流技术应运而生。数据流是以连续的、有序的“流”的形式输入数据,有时效性、实时性、无限性和瞬时性等特点。典型的数据流有网络点击流、实时监控数据流、股票数据流、超市的销售数据流等。对数据流的分析主要包括分类、聚类和频繁模式挖掘三个方面,其中都用到了一些新的技术和方法,如滑动窗口、一次性扫描算法等。本文在介绍数据流及数据流挖掘关键算法的基础上,针对超市的销售数据流进行分析,提出了一种度量商品之间相关性的算法,进而提出了一种基于相关性的数据流聚类算法,对商品进行聚类分析。本文的研究主要集中在以下几个方面:(1)概述了数据挖掘及数据流的概念、数据流挖掘的关键技术及典型算法,重点分析了数据流分类算法VFDT和CVFDT、数据流聚类算法STREAM和CluStream、数据流频繁模式挖掘算法FP-Stream等。(2)针对超市中商品之间的相关性问题,提出一种基于数据流的相关性度量算法,以计算出商品间相关性的大小,利用数据流的一些方法,在有限的时间和空间里动态计算出基于持续到来的销售数据流的商品之间的相关性。实验显示,该算法能以较小的代价有效地度量超市中商品之间的相关性。(3)针对超市中商品之间的聚类问题,提出一种基于相关性的数据流聚类算法,在前面计算出的商品之间相关性的基础上对商品进行聚类。该算法是一个动态更新的算法,实验显示,该算法能有效地对超市的商品进行聚类,得到了非常有价值的聚类结果。
其他文献
【研究背景】慢性乙型肝炎(Chronic hepatitis B,CHB)是由乙型肝炎病毒(Hepatitis B virus,HBV)感染引起的慢性传染病。据世界卫生组织报道,全球范围内约有20亿人曾感染过HBV
近日,习近平总书记就深化人才发展体制机制改革作出重要批示,提出要加大改革落实工作力度,把《关于深化人才发展体制机制改革的意见》落到实处,加快构建具有全球竞争力的人才制度
报纸
“功以才成,业由才广”。随着2017“赢在徐州——高层次创业人才项目路演周”的成功闭幕,徐州经济技术开发区人才工作在“产才融合”理念导向下招才成效逐步显露。$$今年以来,徐
报纸
毫无疑问,金融衍生产品的创新和实证研究对我国金融与资本市场的快速发展将起到积极的推动作用,本论文的研究正是围绕这一主题展开的。本文主要涉及到两部分内容,第一部分为金融
<正>千古文章,得之寸心。写作是一种复杂的精神劳动,作者应物斯感,感物吟志,发而为诗文。所以,作品中所表现出的现实世界已非纯然客观的物理世界,而是饱含作者思想感情的主客
<正>慢性阻塞性肺疾病(COPD)是一种具有气流受限特征的肺部疾病,气流受限不完全可逆,呈进行性发展。其发病率高,严重危害中老年人身体健康和生活质量,2004年世界卫生组织制定
通过综述分析,本文认为,水资源承载力是指在某一区域、流域或生态系统内,在一定的生产力发展水平和技术水平下,提供的水资源数量和质量所能够支撑一定的人口、社会、经济发展规模
<正>随着信息技术的发展,电子政务建设不断深入,电子文件的数量日益庞大。根据《中国电子文件管理现状调查与分析报告》",目前,我国机构生成的电子文件数量占全部文件数量的7
文章通过剖析鲁迅小说《伤逝》女主人公子君的性格、命运特征,阐述了造成她悲剧的成因及其悲剧形象的社会意义。