论文部分内容阅读
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息过滤,近年来基于机器学习的文本分类受到广泛关注。文本分类根据样本类别标签的个数可分为单标签分类和多标签分类。本文主要研究多标签文本的分类问题。
本文首先分析了多标签文本分类方法的研究背景和现状,介绍了当前比较流行的几种多标签文本分类方法。在此基础上,本文结合话题模型和多分类器组合方法提出了两种对现有多标签分类算法的改进方案,实现了一个多标签文本分类原型系统,并进行了相关实验,对实验结果做了比较和分析。
本文的主要研究内容和成果包括:
(1)深入研究了话题模型的主要理论和关键技术,在此基础上提出并实现了一种基于话题模型的多标签文本分类方法。该方法利用话题中词的重要程度进行特征选择,并通过利用话题-词的构成概率和文档-话题的构成概率,以话题为桥梁实现了对文档的分类。实验表明,该方法能有效提升已有算法的分类效果;
(2)通过学习多分类器组合算法,特别是通过对Bagging算法的自举抽样过程的细致分析,提出并实现了基于改进的Bagging算法的多标签文本分类算法。改进主要体现在对抽样过程和投票收集过程的优化。实验表明,改进的Bagging算法使用了更少的训练数据、花费了更少的训练时间和测试时间,却得到了比原始Bagging算法更好的分类效果;
(3)在上述工作的基础上设计并实现了一个多标签文本分类系统。该系统包含文本预处理、分类器的训练、多标签分类算法的选择、话题模型的构建、多分类器组合的构建、分类器的测试、性能评价等各个模块,为后续的研究和应用提供了一个方便、直观、灵活的测试和展示平台。