论文部分内容阅读
近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。文本自动分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机器学习的文本分类技术已经成为主流技术。目前,研究者已经提出了许多成熟的文本分类算法,这些算法大都来自于模式分类,如KNN分类算法,支持向量机算法等。这些现有的文本分类算法大都基于向量空间模型,没有考虑文档的语义特征信息、结构信息等。本文针对传统分类器的不足对文本分类及其相关技术进行了研究,提出了两种有效的解决或改进的方法和技术。本文的研究内容和创新工作主要包括如下两点。1)本文研究了一种基于文本团的文本分类方法,通过在训练集上由文本相似矩阵构造文本相似图,从图中提取文本团(完全子图),由每个类别的团信息来构造分类器,进而与SVM等分类器进行组合。在复旦大学中文文本分类语料库和20 Newsgroups语料库上进行实验,并同时在相同的预处理条件下,与传统的分类方法进行了对比实验,实验表明我们提出的方法在两个数据集上较大改进了分类性能。2)随着网页信息的快速增长,特别是Internet上在线信息的增加,再靠人工的方式来处理信息是不切实际的。因此,网页自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。为了有效地组织Internet上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。由于WEB文档有其自身的特点,近年来受到很多学者的关注,对于WEB文档的分类,传统的文本分类器有其自身的局限性,因此针对WEB文档的特点,我们在传统分类器的基础上利用了WEB文档丰富的链接信息。在北大天网提供的数据集上的实验表明本文分类方法再结合网页的链接信息对分类的效果有所提高。