论文部分内容阅读
随着网络的迅猛发展,人们面对的信息量快速增加,出现了所谓"信息爆炸"的现象.为了从大规模的网络信息中准确提取信息,需要对纷繁芜杂的信息进行合理的组织与分类.该文的目标就是在网络文本信息处理的背景下,从理论和应用的角度对文本信息的分类方法进行研究.研究的主要内容包括面向分类的类别空间模型、基于类别信息模型的文本分类方法、兼类文档及解决方法、文本分类的增量学习等.论文取得了以下研究成果:论文在研究了类别与词语之间的互信息后,提出类别空间模型,引入词语在类别中的代表性系数来表征词语在各个类别的代表性,使用代表性系数计算文本权值,确定文本类别,使文本分类突破传统的向量空间模型.基于类别空间模型的文本分类系统取得了比较理想的分类效果.论文设计并实现了一个基于类别空间模型的文本分类系统,对于词频计算、代表性系数计算及文本权值计算从理论和应用作了深入的探讨,统一了先验知识和机器识别模式,从而大大提高了文本分类的正确率.论文对"兼类文档"的现象进行详细的分析,并将其分类.根据实验结果,研究"兼类文档"在各个类别中的权值分布后,定义类别差异系数.然后,通过实验确定阈值,当文档的类别差异系数高于阈值时输出两个类别,从而使文本分类系统能够识别大部分的"兼类文档",在一定程度上解决了"兼类文档"的分类问题,提高了分类的正确率.论文研究了实际应用中分类系统的调整与优化问题,包括在分类时进行动态增量学习,利用专家知识对分类系统进行微调,自定义类别建立文本分类系统等.论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究成果对文本分类方法的研究具有参考价值.