论文部分内容阅读
20世纪末,数据流作为一种新的、更切合实际的数据模型广泛出现在众多商业领域。它们具有数据量大、可无限、漂移特征、变化快、要求快速响应、适合于线性扫描、随机存取代价高等特点,且蕴含着企业的运行规律、管理要求、影响因素、变化趋势等价值极高的信息,更能反映企业运行、服务内容、服务对象等动态变化情况,但与此同时,这些具有多变性和无限性的数据流也给计算机带来了存储空间、计算速度和通信能力等方面的挑战。尽管数据挖掘技术在挖掘静态数据集方面已经取得了很多成果,但将它扩展到动态数据流挖掘中,尤其是动态商业数据流挖掘中仍具有很大的挑战性。在动态数据流环境中,快速增长的数据集和数据维数的升高,导致现有针对小数据量及低维空间中的算法性能迅速下降,甚至低维空间中的距离、相似度度量将不复存在。本文采用滑动窗口作为数据流统一管理模型,在此基础上首先针对数据降维,从特征选择和特征抽取两方面对高维数据降维研究现状进行全面细致的综述与分析,并分析了最新关于数据降维的六点研究趋势。同时针对数据聚类,从传统静态和动态数据流两方面对聚类算法进行了比较分析。接着在第二章对前人研究进行综述的基础上提出了两种数据降维方法,第一种是基于粗集理论的数据降维方法,它从事务项和维度两方面对数据进行压缩,一方面在保持维特征的前提下,对事务项进行压缩,增强事务项之间的可识别性能力;另一方面通过对维间相关关系进行假设检验,有效去掉对决策结果无影响的维。第二种是基于粗糙等价类的商业数据预处理方法,它利用决策表中条件属性间相对独立性特点对数据维度进行约简处理,是一种全新降维算法,并对顾客评价表中部分数据进行了实例分析,以此表明该算法能够在保留原始信息的基础上有效进行降维。最后研究了在有限资源约束下的数据流聚类方法,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法。它采用两阶段模型进行聚类操作,使用概要数据进行二次聚类并更新聚类簇。通过实验表明,PDStream算法显现出处理海量数据的优越性以及聚类质量高的特点。并依据数据挖掘全生命周期将PDStream算法应用于某商业领域,取得了预期效果。