论文部分内容阅读
随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。数据挖掘作为一种揭示数据模式和数据间关系的处理技术,它通过对海量复杂数据深入的剖析,挖掘出数据内部新的关系或潜在的趋势,为数据提取和知识发现提供了一种良好的解决方法。其中,文本分类作为数据挖掘中一个常见的研究热点方向,按照一定的规则利用训练完成的分类器标记没有分类的文本的类别,在很多方面有着很是广泛的应用范围。二十世纪九十年代之前的文本分类纯靠人工操作去完成。人工方法要求参与分类的人员要具有相应领域的专业知识,根据个人的知识储备对文档进行类别的划分。这种分类方法不仅耗费大量时间,而且浪费大量人力资源,不同人员可能由于主观原因对同一文本存在不同的分类意见,引起分类结果存在多个不同值,所以人工方法难以保持分类结果的准确性。后来,对机器学习的研究不断深入,机器学习的知识逐渐应用到文本分类中并得到长足发展。这种分类方法首先通过对待分类文本的预处理,包括去停留词、词根还原,网页可能还需去除一些网页标记等,通过这步的处理,将对分类不起作用或起很小作用的文本元素去除;然后运用特征提取算法,提取出可以表示文档所属主题(即文档所属的类别)的特征;建立适合分类的特定模型,对分类器用处理过的文本去训练;训练完毕,分类测试及评价。相比于人工方法,基于机器学习的文本分类不仅分类速度快,减少了大量的人力、物力输出,而且有效的提高了分类结果的准确率。但无论是利用信息增益、互信息还是向量聚合等技术进行文本的特征提取,都没有考虑文本内部单字、词语、句子等元素之间的隐含关系对分类结果的影响;而且目前的信息数据呈现高维、非线性等特征,沿用传统的特征提取算法会造成对现有数据的分析达不到稳健性和高准确性要求。对于上面存在的几个问题,本文提出一种新的处理办法用于数据处理方面。在充分分析同义词词林(扩展版)的编码及结构特点的情况下,将词林中的词语相似度计算方法应用到文本数据处理上以此强化特征项的权重,在对知网的结构充分了解的情况下利用知网中的词语相关度计算方法实现特征向量权重的再赋值;通过非线性的降维算法中的局部线性嵌入算法实现降维处理。本文所做主要工作如下:(1)实验采用的语料库中的训练文本集和测试文本集都存在垃圾数据,例如,有的文档只有文章头,没有实际文章内容;有的文档是个空文档;存在重复的文档等,这样的文档对分类不起任何作用,反而在一定程度上可能会对分类结果造成影响,通过对语料库的降噪处理,去除无用的数据,保留对分类有用的数据。(2)一篇文章一个概念可以用不同的词语表达,例如,同时表达“高兴”之意,可能有的人会用“欢快”,有的人会用“愉悦”,这样的确可以提高文章的可读性,这样在丰富文章阅读性的同时,但对特征提取带来一定困难。电脑不像人可以很简单的分辨出同义词、近义词,容易导致在特征提取时把概念一样的词语提取成不同主题的特征,从而影响分类结果。针对这个问题,将词林中的词语相似度计算方法应用到文本数据处理上,对相似度值达到一定阈值的词语进行合并以此强化特征项的权重,尽可能减小问题带来的不必要的影响。(3)为了挖掘出文本内部字词句元素之间的隐含关系,利用知网中的词语相关度计算方法实现特征向量权重的再赋值,以此提高结果的准确性。(4)局部线性嵌入算法与传统特征提取算法相比,能够提取出原本在高维数特征空间中的较低维数的流形,降维处理后仍能保持原有的流形结构不变,是一种新的适用于特征提取的解决方法。