论文部分内容阅读
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。如何从这些海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。 本文主要是应用统计的方法对文本自动分类进行理论和实践的探讨。我们的工作主要从以下方面进行: 1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法。 2.讨论了文本自动分类器一般方法、步骤及有关技术细节。 3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心向量算法构造的三种分类器。对三种分类器分别以字、词为特征进行分类测试、分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类效果好;②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法的平均查全率80.73%,平均查准率82.94%;在以词为特征的情况下,该算法的平均查全率83.6%,平均查准率85.97%;③选用语料不同对分类效果也有影响,如用新浪网(www.sina.com.cn)网页语料进行测试,使用中心向量法分类器和词作为特征的情况下,平均准确率为89.31%,平均查全率为88.33%。 4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确率98.74%的分类效果,说明改进后的算法适合中文文本分类。 本文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义。该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动分类等应用领域。