论文部分内容阅读
近些年来,数据挖掘一直是信息技术产业圈内重点关注的技术点,究其原因主要在于信息技术产业拥有大量数据可供广泛使用,而这些数据背后所隐藏的有价值的知识信息有待被挖掘出来。这些被提取出来的信息可以在金融市场,商业贸易,学术科研等领域发挥重要的导向作用。而其中聚类又是数据挖掘中最为关键的一项研究课题。在这个网络信息技术发展疾速的年代,所产生的数据信息往往具有各不相同的结构和属性,而这使得数据挖掘将迎来新的艰难挑战。在现代的许多应用领域中,比如在无线传感器发射与信号收集的场景中,无线传感器无法像有线通讯设备一样始终连续地发射和接收信号,由于受到外界干扰或者技术限制,其信号具有离散性;然而,自然界真实的环境变化是连续性的,这就导致了无线传感器收集到的信号是不确定性的;在对于这一类的数据进行统计,处理与分析时,在考虑该数据整体性的同时必须兼顾其不确定性,这样才能更为客观的体现数据的本质特性,才能更好地得到数据处理结果,而这无疑使传统确定性数据挖掘研究面临了新难题。处理不确定性数据的数学工具有概率密度函数,模糊数,区间数以及联系数等。其中联系数是一种较新的,专门用来研究不确定数据问题的数学工具,目前已经在诸如水资源系统评价,多属性多目标评估,群决策等领域有着广泛的运用。但在数据挖掘聚类领域的应用还十分少见。本文的主要工作内容和研究成果如下:1.本文首先对大数据环境下的数据挖掘以及数据挖掘中重要课题聚类进行了介绍,论述了本文研究重点不确定性数据产生的背景和原因,然后详细讲解聚类的定义,相似性度量方式,常见的聚类方法等;接着介绍了不确定性数据的表示方式,以及提出了本文核心数学工具-联系数理论,并做了详细介绍,为本文后续章节的核心内容研究做理论铺垫;最后介绍说明了不确定性数据聚类的研究现状。2.针对于目前划分一类的不确定性数据聚类,为了克服其聚类运算时的计算复杂度高,处理数据时忽视不确定性对聚类结果影响等缺点,本文提出了一种基于联系数的不确定性数据划分聚类算法,该算法不但大大降低计算复杂度,而且在聚类过程中兼顾考虑了不确定性数据整体位置和不确定性变化趋势对聚类结果的影响。实验数据显示,本算法聚类效果好,质量高且性能优越。3.针对于目前基于密度的不确定性数据聚类较为匮乏,而基于划分的聚类算法又有无法区分任意形状的簇以及难以发现离群点等缺点,本文提出了一种基于联系数的不确定性数据密度聚类算法,该算法降低了计算复杂度,提出新的距离衡量标准,考虑了不确定性变化趋势,而且大大降低了基于密度这一类聚类算法的参数敏感性。实验结果表明,本算法以较少的参数完成了较高质量的聚类,具有高可操作性,实用性和高效性。