文本数据处理及分类算法研究

被引量 : 0次 | 上传用户:snowmanuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。数据挖掘作为一种揭示数据模式和数据间关系的处理技术,它通过对海量复杂数据深入的剖析,挖掘出数据内部新的关系或潜在的趋势,为数据提取和知识发现提供了一种良好的解决方法。其中,文本分类作为数据挖掘中一个常见的研究热点方向,按照一定的规则利用训练完成的分类器标记没有分类的文本的类别,在很多方面有着很是广泛的应用范围。二十世纪九十年代之前的文本分类纯靠人工操作去完成。人工方法要求参与分类的人员要具有相应领域的专业知识,根据个人的知识储备对文档进行类别的划分。这种分类方法不仅耗费大量时间,而且浪费大量人力资源,不同人员可能由于主观原因对同一文本存在不同的分类意见,引起分类结果存在多个不同值,所以人工方法难以保持分类结果的准确性。后来,对机器学习的研究不断深入,机器学习的知识逐渐应用到文本分类中并得到长足发展。这种分类方法首先通过对待分类文本的预处理,包括去停留词、词根还原,网页可能还需去除一些网页标记等,通过这步的处理,将对分类不起作用或起很小作用的文本元素去除;然后运用特征提取算法,提取出可以表示文档所属主题(即文档所属的类别)的特征;建立适合分类的特定模型,对分类器用处理过的文本去训练;训练完毕,分类测试及评价。相比于人工方法,基于机器学习的文本分类不仅分类速度快,减少了大量的人力、物力输出,而且有效的提高了分类结果的准确率。但无论是利用信息增益、互信息还是向量聚合等技术进行文本的特征提取,都没有考虑文本内部单字、词语、句子等元素之间的隐含关系对分类结果的影响;而且目前的信息数据呈现高维、非线性等特征,沿用传统的特征提取算法会造成对现有数据的分析达不到稳健性和高准确性要求。对于上面存在的几个问题,本文提出一种新的处理办法用于数据处理方面。在充分分析同义词词林(扩展版)的编码及结构特点的情况下,将词林中的词语相似度计算方法应用到文本数据处理上以此强化特征项的权重,在对知网的结构充分了解的情况下利用知网中的词语相关度计算方法实现特征向量权重的再赋值;通过非线性的降维算法中的局部线性嵌入算法实现降维处理。本文所做主要工作如下:(1)实验采用的语料库中的训练文本集和测试文本集都存在垃圾数据,例如,有的文档只有文章头,没有实际文章内容;有的文档是个空文档;存在重复的文档等,这样的文档对分类不起任何作用,反而在一定程度上可能会对分类结果造成影响,通过对语料库的降噪处理,去除无用的数据,保留对分类有用的数据。(2)一篇文章一个概念可以用不同的词语表达,例如,同时表达“高兴”之意,可能有的人会用“欢快”,有的人会用“愉悦”,这样的确可以提高文章的可读性,这样在丰富文章阅读性的同时,但对特征提取带来一定困难。电脑不像人可以很简单的分辨出同义词、近义词,容易导致在特征提取时把概念一样的词语提取成不同主题的特征,从而影响分类结果。针对这个问题,将词林中的词语相似度计算方法应用到文本数据处理上,对相似度值达到一定阈值的词语进行合并以此强化特征项的权重,尽可能减小问题带来的不必要的影响。(3)为了挖掘出文本内部字词句元素之间的隐含关系,利用知网中的词语相关度计算方法实现特征向量权重的再赋值,以此提高结果的准确性。(4)局部线性嵌入算法与传统特征提取算法相比,能够提取出原本在高维数特征空间中的较低维数的流形,降维处理后仍能保持原有的流形结构不变,是一种新的适用于特征提取的解决方法。
其他文献
鲁菜名称是一种社会语言形式,具有明显的地域文化特征。本文以鲁菜菜谱、实地考察、网络调查和《鲁菜标准体系》里的鲁菜名称作为基本语料,运用了饮食文化学、消费心理学、接受
<正> 早在1932年Ferguson报道了云母可危害人体健康,1933年Jones提出绢云母可致矽肺。此后各国学者对云母进行了实验研究,并对现场作了流行病学调查。近年来,随着云母工业用
期刊
第一部分脑β-淀粉样蛋白的PET显像药物11C-DPOD的放射性制备及质控标准的建立目的:研究脑内β-淀粉样蛋白的PET显像剂“C-DPOD([N-甲基-11C]-3,5---苯基-1,2,4-苯并噻唑)的制
湿地是人类重要的生存环境,具有资源、环境及社会功能等多种功能,在人类社会发展和自然生态平衡中发挥重要作用。湿地生态系统自身具有脆弱性,加之巨大的人口压力、掠夺性的开发
创新素质的培养是新课程改革的核心问题,地理教学对学生创新素质的培养是地理新课程改革的核心问题。在课程改革的过程中,地理教学上出现学生的知识建构与素质发展的矛盾问题。
《黑暗之心》是约瑟夫·康拉德(1857-1924)最伟大的小说之一。作者将其在刚果地区六个月的经历写成了这部作品。它是康拉德丛林小说的一部杰作,其间详细阐述了其灵魂深处的矛
近年来,国内外学者都对支架式教学进行了较为系统、具体的研究,且将支架式教学用于一些具体的学科教学设计中,效果较为显著。然而,支架式教学在幼儿园科学教学活动设计领域中的研
改革开放以来,中国经济迅猛发展,文化不断繁荣,综合国力日渐提高,国际地位和国际威望明显增强。“中国热”和“汉语热”极大促进了我国对外汉语事业的迅猛发展,一方面大量热爱中国
本文基于微波雨衰的幂律关系,研究了使用微波链路反演降雨场的方法,采用层析技术建立了降雨场反演模型.并利用SIRT算法与正则化算法实现对降雨场层析反演模型的求解.数值模拟
随着社会的发展,城市公共交通在人们生活中扮演着越来越重要的角色,现已成为城市公共事业不可缺少的一部分。同时,随着人们生活水平的不断提高,人们迫切需要方便、快捷的出行;而且