论文部分内容阅读
近年来,随着互联网技术的应用不断发展和普及,每时每刻都有大量的文本数据产生,例如实时新闻,电子邮件,即时聊天记录等。如何从文本数据流中挖掘出有用的信息已经受到工业界和学术界的广泛关注,而文本数据流的分类问题是文本流挖掘中非常重要的一个领域,可应用于垃圾邮件的分类,恐怖活动侦查等方面。本课题针对文本数据流的分类问题而进行了深入的研究,已完成的工作如下所示:(1)深入分析了文本数据流的生成方式、特点以及文本流学习上当前遇到的挑战;另外,本文总结了文本流分类算法和聚类树分类方法的国内外研究现状。(2)提出了一种强监督聚类树分类算法(CTL):该算法在训练阶段更加合理地利用了数据中的类标信息,在度量样本间相似度的问题上同时考虑了属性空间和类标空间的相似性,使得构建的聚类树模型更全面的反映训练数据的特征。另外,CTL算法中使用了一种新的聚类算法,其能够根据簇的重要性计算簇中心。在本算法的实验部分,相比于原始聚类树算法,常用树形分类算法(C4.5,CART和Random Forest)和SVM算法,CTL算法在处理高维文本数据时有一定的优势。(3)针对文本流分类问题,本文提出了一种基于CTL的动态集成分类算法。该算法使用CTL算法作为基分类器,使用最近的数据块作为验证集,计算每个基分类器精度,然后使用了两种基于精度的加权方式。在本算法的实验部分,对比了四种集成方式和三种基分类器的组合,在不同的数据集上验证了该算法的有效性。