论文部分内容阅读
当代世界是一个信息化的世界,各行各业都存在着大量的数据,人们迫切需要将这些数据转换成有用的信息和知识,以帮助他们进行商务管理,生产控制,市场分析,工程设计和科学探索等,于是数据挖掘便应运而生,成为信息产业界关注的焦点。数据挖掘就是从大量数据中提取有用的知识,它涉及到很多学科领域,包括数据库技术、人工智能、机器学习、模式识别、统计理论、信息论、高性能计算等等。聚类分析是数据挖掘研究领域中一个重要的研究课题,已被应用于模式识别、图像处理、数据分析,市场研究等众多领域。同时,聚类边界分析在数据挖掘中也具有很高的研究价值,已经被广泛应用于生物学、物理学、图像识别等各种领域。目前已经出现了很多聚类算法和边界检测算法,但这些算法大部分都是相互独立的,并没有将聚类和边界检测相融合。另外,已出现的关于边界检测的算法也存在很多缺陷,在实际应用中很难达到用户的预期效果。本文总结了前人的研究成果,并对已往的聚类边界检测算法进行了深入地分析研究,得出这些算法要么效率低,要么边界检测精度低,要么输入参数难以确定。为克服这些缺点,本文提出了向量夹角熵的概念和基于向量夹角熵的边界点检测算法BDVE,该算法充分利用了网格能够提高运算速度且能有效去除噪声的优点。针对已往聚类算法与边界检测算法相互分离的问题,本文提出了基于三角剖分的聚类和边界检测算法DTBOUND,该算法将聚类和边界检测融为一体,充分利用了变异系数和三角剖分图能够自然地反映数据点分布特征的优点。本文实现了算法BDVE和DTBOUND,在综合数据集上做了大量实验,并与其它边界检测算法进行了比较,实验结果表明:算法BDVE和DTBOUND都可以快速、有效地检测出任意形状、不同大小和不同密度聚类的边界点。同时,算法DTBOUND还能快速、有效地识别任意形状、不同大小和不同密度的聚类。