一种KDD算法及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:redlong888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的30 年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应,这些技术大大推动了数据库和信息产业的发展,使得大量数据和信息存储用于事务管理、信息检索和数据分析。由于数据量的剧增,对于隐含在数据中信息的理解已经远远超出了人的能力,这就是所谓的“数据丰富,但知识贫乏”现象。于是,用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery in Databases)的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。它是“从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的非平凡过程”。通过KDD,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。KDD 系统中的知识学习阶段被称为“数据挖掘”(Data Mining,DM),它的算法是KDD 系统的核心。本文立足于KDD 知识学习过程(数据挖掘),侧重于对数据挖掘算法特别是神经网络自组织映射图(SOM)、结合数理统计知识,提出一种切实可行的KDD 聚类算法,DASOM,并以类JAVA 语言实现,对海量数据在无指导学习的基础上进行自动聚类。最后,以电信行业客户呼叫行为分析、客户分群等应用为背景,论证这种算法在实际应用中的价值。通过在中国电信实际生产系统中的应用,已经基本证明本文提出的聚类算法相对于现有基于SOM 的传统算法来说,具有动态结构、参数自调节、对不稳定数据集的学习机制和层次化的聚类等特点和优势,值得在今后的学习和工作中继续深入研究。
其他文献
我国航天远景规划提出要开发星载实时综合数据处理系统,研发此系统的关键技术之一是开发优秀的、通用的嵌入式实时操作系统。同时,高性能的嵌入式实时操作系统也是我国信息产
面向服务的体系结构(SOA:Service Oriented Architecture)是一种新的软件体系结构风格类型。SOA具有分布式、跨平台、可互操作性和松散耦合等特点。它是解决企业信息化过程中
为了进一步提高软件复用程度,为软件的工业化大生产创造必要的技术条件和生产模式,对象管理组织(OMG)于2001年7月推出了模型驱动体系结构(Model Driven Architecture,MDA)草案。
本文旨在研究云计算环境中多约束情况下的虚拟资源调度管理问题。多约束一方面是指来自用户的质量属性约束,比如对响应时间和吞吐量等性能要求和对部署在云平台上应用的可用性
贝叶斯网络作为不确定性知识表达和推理的一种方法在很多领域都有着广泛的应用。贝叶斯网络是一种将贝叶斯概率方法和有向无环图的网络拓扑结构有机结合的表示模型。它是描述
信息已随着计算机技术的迅猛发展,逐步伸展到交通、工业经济、科学技术、社会安全和公共生活的各个领域,成为现代社会中不可分割的一部分。保护重要信息的安全,成为国际社会
入侵检测技术是继“防火墙”、“数据加密”等传统安全保护设施后的新一代安全保障技术。它可以识别针对计算机或网络资源的恶意企图和行为,并对此作出相应的反应,已越来越成为
随着Internet 流量的剧增,路由器成为了网络速度的瓶颈,提高其处理速度成为了路由器的研究重点之一。同时路由器作为互联网的核心设备,其可靠性同样是一个不容忽视的问题。根
前馈式神经网络是最具有代表性、应用最广的神经网络模型。误差反向传播算法(Backpropagation,BP)是其经典的训练算法。但由于BP算法是基于固定学习率的梯度算法,所以不可避免
虽然,目前我们还不知道怎样使计算机和人一样具备强大的学习能力,然而近年来机器学习无论在应用、算法、理论,还是生物系统的研究中都已经取得了令人瞩目的进步。在这些进步