论文部分内容阅读
文本分类技术是解决由于互联网的迅猛发展而导致人们面临“信息爆炸而知识匮乏”问题的有效手段。文本分类往往是属于多类标分类,即单篇文章属于一个或以上的类别。多类标问题是传统机器学习算法不能解决的,同时因为文本数据的特殊性,业已开发的多类标分类算法不能很好地应用于文本数据。如何更好地解决多类标文本分类问题是本文的核心议题。本文的具体工作如下: (1)全面总结了现有的文本处理技术,多类标分类方法及其优势劣势,多类标数据集的度量准则和算法验证准则。 (2)深入分析并总结出多类标文本数据的关键特点。通过对传统文本数据的分析及多类标数据的度量特点,推导出多类标文本数据普遍存在“一高两疏”的特点——高维、特征空间和类标空间稀疏。 (3)提出了解决多类标文本数据的思路。根据多类标文本数据的关键特点,提出对特征空间和类标空间的划分,通过构造不同子空间及其专注的问题,迭代解决多类标文本分类问题是一个好的思路;也就是说,通过把原问题划分为若干个子问题,子问题之间相互协作,寻找最优解。 (4)提出了全新的多类标分类算法——多类标聚类树算法。多类标聚类树算法是根据解决多类标文本文类问题的指导思想,结合传统单类标聚类树算法的特点,通过迭代调用“基于类标信息的聚类算法”将两空间依树的生长不断划分,直至空间足够简单为止。 (5)提出了全新的基于问题转化的多类标分类方法——类标掩盖树。类标掩盖树是通过树形结构和类标掩盖手段,把多类标问题转化为一系列层次分明,相互协作的多类别分类问题,进而考察类标掩盖数组,解决多类标分类问题。 (6)实验证明多类标聚类树算法在文本数据上的优越性。通过实验手段,选择十三种近年学术界公认的state of art多类标分类方法,在十二个基准多类标文本数据集,六个多类标二值验证准则,七个多类标排序和概率验证准则上进行对比分析,得到的结论是多类标聚类树算法总体上优于其他对比算法,并得到多类标聚类树算法的分类能力强于其排序能力的结论。