论文部分内容阅读
聚类分析源于数学和统计学,应用于计算机科学、生物学和经济学等领域,它是数据挖掘技术中的经典方法,旨在针对数据对象的特点,基于某种相似性度量标准将数据对象聚集到相应的簇中。该方法首先针对待分类数据的特点进行透彻的分析,并构造相似性度量准则,然后基于相似度设计相应的聚类算法,从而实现分类的目的。虽然聚类分析方法在文本分类、Web页面分类、Web用户分类及空间数据分析等问题中已取得了成功的应用,但不同的应用环境下,各种方法的效果也各不相同。因此本文拟深入讨论聚类分析方法在多数据库分类及文本分类上的应用。大型企业,尤其是跨国公司,随着信息技术的进步、自身规模的发展和分支机构的扩充,积累了越来越多的事务数据库,学术界称之为多数据库。多数据库不仅包含的数据库数目众多,其中各数据库所积累的数据量也非常庞大,传统的单一数据库挖掘技术已无法满足多数据库挖掘的需要。事实证明先对多数据库分类再按类挖掘模式的方法是目前最有效的挖掘策略,因此多数据库分类已成为聚类分析所需解决的新的技术问题。本文针对多数据库中数据对象的特点,基于当前的研究基础,构造了新的优秀度衡量标准,并设计了相应的聚类算法。文本是广为使用的信息载体,文本信息处理是一种涵盖了统计学、机器学习、模式识别及数据挖掘等技术的多学科综合研究领域。由于文本数量的庞大,最有效的挖掘方法是先对文本进行分类,然后以类为单位挖掘模式,因此,文本分类已成为文本信息处理中的一项重要课题。文本是词的集合,在某种程度上,文本中的词等同于事务数据库中的事务项,因此文本数据对象与多数据库数据对象有着内在的关联,多数据库分类中所建立的聚类策略可以映射到文本分类问题上。研究过程中,首先详细了解了聚类分析方法的技术基础,深入研究了多数据库和文本挖掘的理论知识;然后根据多数据库数据对象的特征,构造了新的聚类优秀度评价标准,并将这一标准类推到文本分类中;最后分别针对多数据库和文本对象设计了相应的聚类算法,并用实验证明了算法的有效性。主要研究内容如下:(1)在现有多数据库聚类算法的基础上,提出了改进方法。虽然多数据库聚类算法已取得一定的成果,但目前的方法仍可能在选择最优聚类的过程中错过真正的最优结果。对于这种情况,我们在现有算法的基础上提出了一种改进方法,旨在得到完全的候选聚类集合,并在人工数据集上进行了实验,结果表明该算法能得到更优秀的聚类,但是算法的时间复杂度相对较高,适用于精度要求较高的分类环境。(2)设计了一种基于PAntSC*算法的多数据库聚类方法PAntSC*算法已被应用在文本分类中,但需要事先提供目标类别的个数,本文在PAntSC*算法基础上进行了改进,并应用于多数据库分类问题上。聚类过程中,我们首先根据各数据库的轮廓系数建立数据库聚类序列L,然后基于改进的PAntSC*算法将数据库依次聚集到相应的类别中,最后根据结果评价标准确定最优聚类。该方法避免了Huffman算法需要事先指定类别数量的局限性,应用性能较强。(3)提出了一种基于Huffman树思想的文本聚类算法文本是句子的集合,句子由“词”构成,事务数据库是记录的集合,记录由事务项构成,因此文本分类和多数据库分类中的数据对象间存在着内在的关联。我们利用在多数据库分类中所积累的技术方法,针对文本数据的特性,构造了新的文本相似性度量准则,提出了基于Huffman树思想的文本聚类算法,并根据优秀度评价标准筛选出最优的聚类结果。针对我们所提出的方法,在中文分类语料库上进行了实验,虽然得到的结果并不是最理想的,但证明了该文本聚类算法的可行性。本文针对聚类分析方法在多数据库和文本分类上的应用展开了研究,提出了三种聚类算法,并通过实验验证了算法的可行性。本课题所探讨的问题理论上夯实了聚类技术基础,应用上为多数据库分类和文本分类提出了新的聚类方法。