数据挖掘中聚类分析的研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:hanshuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是目前信息领域和数据库技术的前沿研究课题,被公认为是最具发展前景的关键技术之一。数据挖掘涉及到统计学、人工智能(特别是机器学习)、模糊理论和数据库技术等多种技术,它强调的是大量数据和算法的可伸缩性,是一门很接近实用的技术,其技术含量比较高,实现难度也较大。聚类分析是数据挖掘的重要功能之一,近年来在该领域的研究取得了长足的发展,出现了许多聚类分析方法,如划分聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中,特定的情形下取得了良好的效果。但是当处理数大量数据、具有复杂数据类型的数据集时,仍存在若干尚未解决的问题。本文系统地研究了数据挖掘的概念、功能、处理过程及技术算法,数据挖掘的核心技术是数据挖掘的算法,本文就数据挖掘的算法做了分析和比较,选取了K-平均算法和DBSCAN算法做了深入的研究,并给出了一种基于距离的异常数据挖掘算法。本文以山西省一所高职院校的学生成绩数据为背景,通过数据预处理工作,应用以上几种算法对上述数据进行了聚类分析,实现了可视化,最终挖掘到一定价值的信息。
其他文献
组块识别是自然语言浅层句法分析的重要任务之一。它通过采用“分而治之”的策略把句子解析成较小的单元来简化句子结构,并为进一步揭示这些单元间的句法关系提供基础。组块
学位
网络与通信技术的迅速发展,使得结构复杂的网络环境和灵活多样的业务应用对网络管理的依赖性日益增强,同时也对网络管理系统在自动化、智能化及快速反应和动作协作等方面的能
近年来Linux系统在服务器领域的占有率一路攀升,尤其是在云计算领域。但是由于源代码开放,Linux面临着日趋严峻的安全挑战。Linux环境下的内核级Rootkit类型木马拥有与操作系统
RFID (Radio Frequency Identification)射频识别技术,是采用无线射频方式进行非接触通讯,自动识别物品并获取数据的一种快速识别技术,已在各个领域得到广泛应用。基于RFID技
PC机是以其低廉的价格、灵活的架构、不错的性能被人们广泛地应用在各行各业中。近十几年来,PC机性能飞速发展。但是PC机重要的存储部件——硬盘的性能发展速度缓慢。而人们
无线射频识别(Radio Frequency Identification,RFID)技术的快速多样化发展对传统RFID应用的适应性、灵活性及可维护性提出了挑战,导致了RFID中间件的出现。RFID中间件为应用提
P2P网络中的节点既是服务的提供者也是消费者。由于P2P网络大多排斥集中的CA,没有权威机构来规定节点的交易规则,使得网络中的节点经常是在未知环境下进行交易的,一些节点可
随着信息技术的发展和计算机的广泛应用,如何保证和提高软件质量成为软件工程最为关心的问题之一,以软件测试为中心的软件质量保障技术在软件生产实践中得到了迅速的发展。但
如今对于标准编码文字的检索已非常成熟,其应用几乎无处不在。如果能用与检索标准编码文字相类似的方法来实现对以计算机文件形式存储的手写文档的查询和检索的话,则能够大大