论文部分内容阅读
近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。自动文本分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机器学习的文本分类技术已经成为主流技术。本文旨在运用偏最小二乘回归和核偏最小二乘回归的统计理论,研究一些基于学习的文本分类技术。 在文本分类中,有效的维数约简可以提高学习任务的效率和分类性能。特征选择和特征抽取是维数约简常用的两种方法。特征选择的优点是所选择的特征都有很好的语义解释,但在文本分类中效果不够理想。特征抽取能够较好地处理多义词、同义词问题,但是不能给出降维后所得到特征的语义解释。为了有效地提取特征所在类别的语义信息,本文提出了基于潜在语义文本分类模型(Latent Semantic Classification Model:LSC)的特征选择两步法:用LSC模型进行特征抽取;引入特征变量投影重要性(Variable Importance in Projection:VIP)指标来重新度量各特征的重要性,根据特征的重要性来进行特征选择。在复旦中文文本分类语料库上,实验表明新方法进行选择特征能很好地表示类别的语义信息,在一些经典模型上分类性能有较大提高。 考虑了文本特征和分类信息的LSC模型本质上是线性模型。为了提高分类性能,通过引入核函数提出了一种非线性的文本分类模型:基于核方法的潜在语义文本分类模型(Kemel Latent Semantic Classification:KLSC)。实验结果表明该模型也能很好地表示文档空间的潜在语义结构信息,具有良好的分类性能。 在LSC模型和KLSC模型中都面临一个关键问题:潜在变量对数量的确定。两个模型都是通过阈值ε来控制,在中文语料库上实验表明随着维数的增加,微平均F1值和宏平均F1值对阈值ε越来越敏感;在不同特征维数下,LSC模型所有类别阈值ε和潜在变量对数量呈非线性关系,而KLSC模型呈线性关系;我们发现大约20个左右的概念(concept)就可以很好地表示一个类别的语义信息。