论文部分内容阅读
文本分类是通过分析待分类的对象,提取待分类对象的特征,比较待分类对象和系统预先定义好的对象的特征,将待分类对象划归为最相近的一类,并赋予相应的分类号。文本分类是文本挖掘技术的基础和核心,是近年来数据挖掘领域的一个研究热点。特征提取和文本表示是文本分类当中的关键技术。在传统的文本分类系统.中,假设文本中的词条之间是线性无关了,文本的向量空间中的特征维度间是正交关系,但实际上在文本的上下文当中,词条之间存在着各种关系,如同义、近义、关联等。利用这些关系和词语之间的相似程度,我们将关键词映射到概念空间,用概念作为特征来表示文档进行分类。这样许多相似度非常高的词语被转换成一个概念,而一个多义词在不同的语境下也会被映射到不同的概念,提高了特征词的凝聚度,克服了传统分类系统中基于关键词的分类方法缺陷,解决了维度灾难,提高了分类准确率。本文在设计特征提取模块的过程中,采用数据库作为耦合中介,松解特征模块中各个部分的紧耦合度,建立特征提取模块的模型框架。基于这种模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条各种统计运算,而且可以灵活地变更模块中的不同算法,比较其性能,达到研究平台的要求。本文借助“知网”、“同义词林”词典,构建语义处理模块,将特征词由关键词空间映射到概念空间,实现了基于概念相似度的文本分类系统。在对语义概念处理模块建模的过程中,根据两部词典的词条特点,利用了多字Hash表词典索引机制对两部词典进行系统构建,优化物理存储空间,提高系统语义处理速度。在对语义处理后的训练语料进行分类操作时,本文利用支持向量机算法SVM对系统的性能进行研究。在训练过程中,采用计算机、艺术、教育、交通、环境医药、军事、政治、体育、经济、环境等10个类别的近2000篇文本对象进行试验,并选有1000个文本进行测试,从而体现了较好的系统优势和性能。