论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。它是信息检索、机器学习和自然语言处理的热点和关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域。文本分类系统主要包括文本表示、预处理、特征降维、分类方法和效果评估5个部分。本文应用LDA(Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。克服了采用特征抽取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题。本文主要工作及创新点在于:1.针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,本文提出了一种基于LDA模型的文本分类方法。在判别模型SVM框架中,应用LDA (Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。利用MCMC (Markov chain Monte Carlo)中的Gibbs抽样进行推理,间接计算模型参数,获取文本在主题集上的概率分布。在文档集的隐含主题一文本矩阵上训练SVM(Support Vector Machine),构造文本分类器。在中英文语料库上进行分类实验,验证基于LDA模型的分类方法的有效性和优越性。2.针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题。本文参考基于密度的聚类算法DBSCAN中计算样本密度的思想来度量主题之间的相关性,提出了基于DBSCAN的最优主题数选择算法。在本文搭建的自动文本分类系统的实验平台上,将分别采用贝叶斯理论的标准方法和基于DBSCAN的最优主题数选择方法,寻找语料库的LDA模型的最优主题数T。实验结果表明,与贝叶斯中标准方法和基于HDP的最优主题数选择方法相比,本文提出的基于DBSCAN的最优主题数选择方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。