论文部分内容阅读
近年来,随着互联网的发展,人们可以获取的信息以指数的速度增长。一方面,为了便于管理如此庞大的信息,文本分类技术日益引起人们的关注。另一方面,对于特定的用户而言,所需要的信息往往只占其中极小的一部分,因此从大量的文本数据流中寻找满足特定用户需求的文本的文本过滤技术显得犹为重要。
本文首先研究了主题文本分类中的各项关键技术,在文本表示方面,采用向量空间模型来表示文本,以词汇作为向量空间模型的特征项,然后介绍了7种不同的特种选择的算法,包括文档频率、互信息量、x2一统计量、词汇的熵、KL距离、信息增益、优势比,接着介绍了机器学习中比较常见的几种分类算法:中心向量分类器、K近邻算法、朴素贝叶斯分类器、AdaBoost算法、支持向量机算法。在中英文语料上的实验结果表明特征选择算法中,信息增益、x2一统计量有着相对较好的性能。在20-newsgroups数据集上,采用SVM算法,选用全部特征项,0-1权重,5-fold交叉验证,宏平均和微平均分别达到89.2%和89.4%。
其次,在态度文本分类中,我们研究了词的倾向性分析和篇章态度分类。在中文词的倾向性判断方面,我们提出了将知网的语义相似度和语义相关场计算功能应用到对于词汇进行语义倾向性判别,最好的性能达到了87%的准确率。在篇章态度分类方面,使用倾向性词表的无监督分类在中文和英文语料上都低于60%的准确率,而采用支持向量机算法的监督学习的方法在中文和英文语料上则都达到了86.5%。
最后,介绍了一个基于主题文本分类和态度文本分类技术的网页过滤系统,采用中心向量分类模型进行主题判别和使用支持向量机算法进行态度分类,系统的实验结果表明,该系统的过滤性能和效率都已经满足实际应用的要求。