论文部分内容阅读
近年来,以计算机和通信为代表的信息技术得到迅猛发展,各个行业产生并累积了大量数据,迫切需要使用知识发现方法从中挖掘出有价值的新颖知识。目前的知识发现研究中,传统的线性预处理技术如PCA、CMDS等方法不能有效的处理非线性、强相关的高维数据,有较大的应用局限性;在数据挖掘过程中,基于密度的聚类方法往往存在着全局密度阈值的限制,对输入参数较为敏感等缺陷。本文针对当前研究中存在的问题,分别研究并提出了相应的解决方法,最后研究了这些方法在高维文本处理中的应用。针对数据预处理问题,本文提出了一种新的流形学习方法——可预知增量式嵌入PrePIE算法。该方法将全局优化方法和局域自组织原理相结合,在局域优化嵌入的基础上逼近全局优化的流形重构质量,从锚点集选择方法、锚点集嵌入方式、全局点集嵌入方式三个方面提高了低维嵌入流形的重构质量,提高了流形低维嵌入的稳定性和可用性。在数据挖掘阶段,本文针对当前基于密度的聚类知识发现方法存在的全局密度阈值限制,提出了基于局域密度分布自适应调整邻域半径的算法CABDET。该算法首先确立了簇内对象之间的邻接关系,通过考察父节点的局域密度状况动态调整当前节点的邻域半径,反复寻找各自的子节点,直到不能找到新的子节点时停止。CABDET算法不受全局密度阈值的限制,能够发现任意形状的簇,对参数的敏感性弱,能有效处理噪音数据。然而,CABDET算法存在执行时间长和小参数设置下的簇分裂现象。对此,本文又提出了一种基于局域计算的层次化密度树聚类方法LOCHDET。该算法通过预先指定局域计算系数将对象之间的相似性计算从全局转换到局域,大幅度提高了算法的执行效率,并对稀疏的相似矩阵实现了基于行的压缩。实验结果表明,在二维正态分布的测试集上,LOCHDET算法对CABDET算法的时间加速比在6~8之间。此外,LOCHDET算法采用层次化的聚类方法,将满足一定条件的簇合并,显著提高了聚类质量,解决了CABDET算法中存在的簇分裂现象。本文讨论了LOCHDET算法的模式发现能力及模式评估问题,并将数据预处理方法PrePIE和数据挖掘方法CABDET应用在具有高维特征的标准文本测试集上,研究了以F-measure值作为客观兴趣度度量的实际应用效果。实验结果表明,PrePIE方法能够有效的处理非线性高维的文本数据,提高聚类质量;CABDET方法可以发现多种聚类模式,取得了明显优于DBSCAN的聚类效果。