商业数据流降维方法及其聚类算法研究

被引量 : 0次 | 上传用户:qwerty_123asd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪末,数据流作为一种新的、更切合实际的数据模型广泛出现在众多商业领域。它们具有数据量大、可无限、漂移特征、变化快、要求快速响应、适合于线性扫描、随机存取代价高等特点,且蕴含着企业的运行规律、管理要求、影响因素、变化趋势等价值极高的信息,更能反映企业运行、服务内容、服务对象等动态变化情况,但与此同时,这些具有多变性和无限性的数据流也给计算机带来了存储空间、计算速度和通信能力等方面的挑战。尽管数据挖掘技术在挖掘静态数据集方面已经取得了很多成果,但将它扩展到动态数据流挖掘中,尤其是动态商业数据流挖掘中仍具有很大的挑战性。在动态数据流环境中,快速增长的数据集和数据维数的升高,导致现有针对小数据量及低维空间中的算法性能迅速下降,甚至低维空间中的距离、相似度度量将不复存在。本文采用滑动窗口作为数据流统一管理模型,在此基础上首先针对数据降维,从特征选择和特征抽取两方面对高维数据降维研究现状进行全面细致的综述与分析,并分析了最新关于数据降维的六点研究趋势。同时针对数据聚类,从传统静态和动态数据流两方面对聚类算法进行了比较分析。接着在第二章对前人研究进行综述的基础上提出了两种数据降维方法,第一种是基于粗集理论的数据降维方法,它从事务项和维度两方面对数据进行压缩,一方面在保持维特征的前提下,对事务项进行压缩,增强事务项之间的可识别性能力;另一方面通过对维间相关关系进行假设检验,有效去掉对决策结果无影响的维。第二种是基于粗糙等价类的商业数据预处理方法,它利用决策表中条件属性间相对独立性特点对数据维度进行约简处理,是一种全新降维算法,并对顾客评价表中部分数据进行了实例分析,以此表明该算法能够在保留原始信息的基础上有效进行降维。最后研究了在有限资源约束下的数据流聚类方法,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法。它采用两阶段模型进行聚类操作,使用概要数据进行二次聚类并更新聚类簇。通过实验表明,PDStream算法显现出处理海量数据的优越性以及聚类质量高的特点。并依据数据挖掘全生命周期将PDStream算法应用于某商业领域,取得了预期效果。
其他文献
[目的]研究高流量呼吸湿化治疗仪的应用对病人脱机后血气分析指标、气道满意率及再插管率的影响。[方法]选择脱离呼吸机但保留气管插管病人64例作为研究对象,随机分为试验组
<正> 滞弹性是衡量金属波纹管性能的一个重要指标,它不仅与材料的原子间结合力有关,而且还与材料的组织状态有关。国外对测量弹性元件的滞弹性和热处理后的机械性能及组织状
由于“看病难、看病贵”问题在中国的出现,以及相关讨论的持续升温,医疗保障体制的改革将会不可避免。它山之石,可以攻玉。借鉴西方发达国家的先进经验,吸取其失败的教训,发
β受体阻滞剂在慢性心力衰竭(CHF)中的应用经历了30多年的探索,终于确立了其重要地位,这是“生物学”治疗的典范。多个临床研究证实其在阻断CHF发生发展中具有不可取代的作用
大量的研究表明家蚕丝素蛋白具有良好的生物相容性。而对于柞蚕丝素蛋白在医用生物领域的研究报道在国内外尚较少。本研究选择再生柞蚕丝素蛋白为研究对象,观察了人骨髓间充质
从《现代汉语词典》对"那"的解释中可以看出,"那"属于实词范畴。但它也有实词虚化的现象。基于此,本文旨在通过对"那"在北大语料库中的语料进行定量分析,希望能够弄明白"那"
生物科学产业是当今发展最快的高技术产业之一,在医药、农业、能源和环境保护等领域均有广泛应用。蚌埠医学院生物科学专业自开设至今已培养出10届毕业生,为了更好的了解毕业
快速消费品产业一直都是全球经济不可或缺的重要一环,是人们日常生活消费的重要组成部分。由于快速消费品单品价值低、利润小、需求量大的特点,该行业供应链相对其他行业运行
目的丹红注射液辅助治疗高原地区心功能衰竭的疗效观察。方法选择高原地区心功能衰竭病人20例,予正规抗感染、利尿、强心、平喘、吸氧基础上给予丹红注射液20ml加入5%葡萄糖
锡青铜是一种良好的弹性材料,常用作弹性零件。正由于它弹性好,而且存在各向异性,给压弯模具的设计和制造带来困难。由于压弯后回弹很大,零件往往达不到图纸要求。而且锡青