金融数据挖掘中的增量聚类算法及应用研究

被引量 : 0次 | 上传用户:wujielele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术在金融领域的研究重点之一就是如何从海量数据中高效率地获取知识;另外,传统聚类方法的研究多集中于数字属性的数据,而电汇数据中存在大量非数字属性以及具有多种特征的数据集合;聚类输出的结果不容易理解也是传统聚类分析方法的问题之一。因此,反洗钱系统中的聚类算法的研究主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合,如文档数据、分类数据等以及如何对聚类结果给出概念性解释。国家外汇管理局决策支持系统已经着手研究在非现场监管系统中数据挖掘技术的应用。将大规模数据集合高效地划分为有意义的子集是金融数据挖掘的基本问题之一。由于数据采集时的随意性和不规则性,加上市场发展的渐进过程和管理制度的滞后,使得金融数据挖掘必须在缺少背景知识的情况下,处理属性类型复杂、有噪音及孤立点和不完整的数据。传统的BIRCH算法由于其增量特性适应于大型数据库,但是该算法利用的汇总信息的思想无法处理分类属性的数据;K-means算法虽然可以处理分类属性的数据但是由于其高昂的代价而无法适应于大型的数据库。笔者结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,即:使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率;与此同时,将基于概念模型的方法应用到聚类输出结果中,使输出结果被解释为可以理解的层次关系,从而改善提高该算法的输出质量。最后笔者提出了将核心树算法应用到国家外汇信息管理决策系统中的方案, 并通过实验证明了将该算法应用到金融数据挖掘中能够达到预期效果。
其他文献
中国入世后,外资开始涌入中国住宅房地产业,其先进的开发理念和管理技术,规范的市场经营观念,成熟的全程策划模式,无疑对本土开发商造成了强大的压力。房地产开发商面临的不仅是楼
带通信号采样定理是全数字式正交检波器设计的理论基础。目前国内外相关文献关于带通信号采样定理的表述有多种形式,这将直接影响到全数字式正交检波器设计的优化。本文首先
专家系统是人工智能领域的一个重要分支,其目的在于用机械电子的方式模拟人类的思维。成熟商用的专家系统具有重要的经济和社会效益。OOP技术是软件工业发展史上的一座里程碑,
空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在空间数据中的普遍的数据特征。本文系统的研究了空间数据挖掘
根据生物注意机制,该文提出了一种基于视觉注意模型和进化规划的感兴趣区检测方法。采用进化规划方法分割图像候选区域;区域兴趣度由视觉注意模型产生的局部显著和进化规划计
探讨了高粘流体脱挥过程的容积传质系数,提出用氧探头放在气相测试的方法,建立并求解了测定模型,利用该法测定了双轴表面更新釜中采用三种不同型式的桨搅拌非牛顿流体时的脱
本文以水泥厂粉尘综合防治为研究对象,从水泥的生产工艺出发,深入探讨了水泥生产粉尘形成机制及治理和除尘器的选型及机立窑水泥厂主要尘源的防治研究,并介绍了粉尘治理工程
该文利用塔康测距信号收发已知且能量集中的特点,在原有的频谱相除方法的基础上,提出采用功率谱密度函数并引入补偿因子进行频谱相除的方法,对接收信号中多径时延进行估计。
本文提出了一种低耗液体材料微波复介电常数测试技术,利用一腔多模的TEOmn高Q圆柱测试腔,可对低耗液体材料的ε′γ和tanδ进行准确地测量.测试ε′γ的不确定度为±0.5%,tanδ的不确定度为±5.8%,且在
啤酒生产是我国的一个传统产业,为国民经济建设发挥了重要作用。目前国内绝大多数啤酒厂均采用普通Pt电阻测温和单一PID控制,测温精度低,控制效果不理想,导致啤酒质量不稳定。因