论文部分内容阅读
文本分类是将文字组织的电子文档按不同的语义概念归入一个或多个不同语义范畴的过程。由于万维网的普及与互联网技术的迅猛发展,数量剧增的电子文本数据变得越来越难以管理,文本分类的重要性便受到了有效的重视。为了减小信息量爆炸所带来的负面影响,对具有高精度性能的文本自动分类方法的需求是必然的。作为文本挖掘、信息检索以及网页搜索等领域的关键技术,文本自动分类也因此在相关应用中扮演着极其重要的角色。目前主流的基于机器学习的文本分类方法主要结合统计理论分类,利用表示文本特征的统计特性作为度量手段,其关键过程包括文本预处理、特征削减、权重计算、分类方法学习和分类结果及性能评估。通过分析发现,自然语言天然的模糊性使得特征之间的联系很难清晰地定义,同时也很难由统计工具明确地表示,由此引入模糊理论,以模糊的概念来表示特征的语义及文本的类别属性,待分类文本不再是绝对地属于或不属于某个类别,而是由对各类的隶属程度判断最可能属于哪一类,从而引出了模糊文本分类的概念。本文提出了基于模糊关系的文本分类方法,用模糊关系来表示语义单元的类别属性更符合自然语言特征,以达到更高的分类精度。该方法分别定义了特征用于表示文本和类别的隶属函数,将测试文本和类别表示为特征的模糊集,并以模糊相关系数来度量文本与类别的模糊关系,得到文本的类别模糊集,并按最大隶属原则决定测试文本所属类别。实际情况下,一篇文章可能同时属于多个类别或者文本类别不清晰,多标签文本分类问题正是关注于文本可能属于多于一个以上类别的情形。基于以上模糊关系的计算,本文提出了改进的多标签文本分类方法,使用多类别向量表示类别之间的关联信息,重新计算引入类别关系之后文本与各类的模糊相关度,并且采用启发式搜索的思想为每个类别设定相关度阈值,当测试文本与某类别的相关性计分大于所求出的阈值时,则应为文本标记该类标签。在中文文本分类系统平台上,本文首先将基于模糊关系的文本分类方法与k-NN算法进行了多组实验对比,并采用多种指标对性能进行评估,实验结果表明该方法有较好的分类精度,且分类速度有较大提高;最后在相同的系统环境下,通过实验验证了基于模糊关系的多标签文本分类方法可以获取正确的类别,表明该方法是有效且高效的。