论文部分内容阅读
文本中含有大量对分类有贡献的信息,能否综合利用这些信息选取一种合理的文本表示方式,是文本分类的难点和关键。单纯的使用传统的向量空间模型VSM(Vector Space Model)表示文本,由于其是基于统计得到的,缺乏文本语义即主题上的信息。本文通过对词共现原理进行研究,在文本语料中提取文本的词共现信息,将词共现得到的关键词词对组合成短语,以组合后的短语作为文本的主题特征并赋予一定的权重与原始文本语料的基本特征进行合并,得到了基于词共现改进的向量空间模型即Word Co-Occurrence Mode Based On VSM, WCBVSM,能够更好的挖掘出文本的主题信息。由张铃教授和张钹院士提出的构造性学习方法,它利用球形映射将神经元变换成为对有限空间划分的分类器,正是这种方法将神经网络长期未解决的学习问题转换成覆盖问题进行求解,同时大大降低了问题描述的复杂性。本文提出了将交叉覆盖算法和模拟退火理论相结合的基于模拟退火的交叉覆盖覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm, SACCA)。改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。在对传统算法进行了改进之后,本文给出了一种基于WCBVSM和SACCA相结合的文本分类新模型,实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。纵观全文,主要工作如下:1.介绍了文本分类和覆盖算法的研究背景和意义。主要简述了文本分类的一些相关技术,如预处理,特征选择等;分类算法的几种经典算法,并加以分析了它们的优缺点。2.通过对传统的词共现模型进行研究得到扩展的词共现模型,并据此提出了基于词共现的文本主题挖掘方法WCBVSM。3.对目前分类效果较好的机器学习算法——覆盖算法进行了研究,说明了它的基本思想、构造算法并对传统覆盖算法的特点进行了理论分析。针对不确定海量信息数据分类识别时识别率与泛化能力这一对矛盾,结合模拟退火算法提出了基于模拟退火的交叉覆盖算法SACCA并取得了很好的实验效果。4.提出了主题挖掘和基于模拟退火的交叉覆盖算法相结合的文本分类新模型,并实现了系统:给出了系统设计结构图,系统实现的关键技术和方法,并对系统进行了测试。