论文部分内容阅读
随着互联网的发展,公众既感到信息资源十分丰富,同时又感觉想找到所需的信息相对较难。笔者认为原因之一是现有的信息系统还没有能够对信息资源进行有效的组织管理,解决此问题的途径很多,内容管理是其中之一,而文本分类则是所有基于内容的文本信息管理的基础,因此笔者在参与“中美百万册书数字图书馆”、“国家科学数字图书馆”等研究项目的同时,从理论、技术和实践三个方面对文本分类进行了深入的探讨,并采用文本分类技术来辅助解决了信息系统建设中资源服务、管理和采集方面的一些问题。 在信息资源服务方面,本文首先从理论上分析了文本检索和文本分类的关系。笔者认为“分类”与“检索”是密不可分的信息获取手段,它们之间能够互相促进、互相补充。常规检索方式中由于用户所给的查询条件很少,因此要检索出用户所需要的文档确实是非常困难的一项工作。因此,如果能充分地将文本分类技术应用到检索系统当中,能够有效提高文本检索的效果。本文在“中美百万册书的层次检索系统”中将分类体系与文本检索相结合,验证了上面的设想;在“基于内容的信息推荐系统”中将文本分类技术应用到检索中,在服务模式上为用户提供了基于内容的服务,在技术上对算法进行了研究,并构建了原型系统,理论上可以支持对一百万册书检索,并能够达到秒级响应速度。 在信息资源管理方面,由于海量信息资源的出现,采用人工方式进行管理越来越不切实际,采用计算机管理又达不到人工管理的精确程度。本文从理论方面指出了其中存在的核心问题,即常用的等级列举式分类体系与文本分类算法之间存在的矛盾:由于两者用来描述信息的数据结构不同,导致无法完美地相互结合,从而降低了分类算法的正确率,也不利于检索系统的构建。在“中英文物理网站分类系统”案例中,本文通过对分类体系和训练数据进行分析,取得了采用文本分类技术来进行信息资源管理的一些经验。 在信息资源建设方面,本文用“冗余网页过滤系统”来说明如何解决资源建设中的重复建设问题,在研究中主要针对算法的时间复杂度和空间复杂度进行了优化,找到了表达一篇文档的最优特征项个数数值,在确保正确率的基础上加快过滤速度。在“2002年TREC文本过滤比赛”案例中,对比了一般类目和组合类目在文本过滤中的不同之处,并通过此案例说明了如何将文本分类技术研究中的成果应用在实际文本过滤系统当中,并得到如下结论:只有将文本分类系统的各方面技术进行综合考虑,才能够最终取得更好的分类效果。 另外,本文还探讨了文本分类和文本检索评价指标之间的关系。在文本分类领域,有时也采用查全率和查准率作为评价指标,但更常用的是分类正确率。笔者通过例子来说明文本检索中仅仅采用查全率和查准率来评价检索系统所可能存在的问题,然后从理论上探讨了查全率、查准率和分类正确率之间的关系。 要想提高基于内容的信息服务质量,需要在技术方面从根本上提高文本分类 摘要算法的正确率,因此本文全面研究了基于统计的自动文本分类方法,包括特征项提取、赋权、分类器构建等问题。 l)特征提取方面主要研究了特征项降维和N元模型。为了对文档进行充分表达, 笔者对中文文本采用了多层次特征表示方法:系统通过从汉字、常用词表和专 业词表三个层次上提取文档的统计特征,从而能够更好地反映文档特征项的统 计分布规律,为提高分类正确率打下基础。 2)在特征项赋权方面,本文考察了先前的实验结果,对多种赋权方式进行了实 验,如文档频率、信息嫡、互信息和X2统计量。通过分析这些赋权方式之间的 理论矛盾和实验结果,笔者详细探讨了特征项与类别之间的关系,提出了综合 赋权方式,从多方面考虑特征项权重,并取得比单一赋权方式更好的实验结果。 3)在分类器构建方面,主要考察了三种分类器,Rocchi。、KNN和SVM。其中 KNN和SVM是公认的较好的分类器。但笔者认为Rocchi。有其自己的特点, 如能够直观地反映每个类的特征,且时间和空间复杂度都较低。在笔者的实验 当中,通过对其进行改进,并与特征选择和赋权相结合,系统的封闭测试分类 正确率可接近100%,开放测试正确率也明显提高,接近KNN和SVM算法。 本文的实验环境采用的是中国大百科全书的原文和分类体系,标准的实验数据既减少了分类体系类目之间的交叉,又保证了文档与分类体系的相关性,从根本上保证了实验结果的可信度。