SVD在文本分类中的应用

被引量 : 0次 | 上传用户:dalianwaiguoyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的进步和互联网的日益普及,我们的信息正处在一个急剧增长的时代。如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为新的信息时代里最重要的问题之一。海量文本的快速分类成为数据挖掘中的重要研究方向。而文本分类中的特征降维技术成为快速分类的关键。论文课题的主要研究工作:SVD(奇异值分解)技术在文本分类中应用研究。包括SVD算法的实现与优化;SVD算法K值百分比策略的验证,拟合度概念的提出与应用;KNN与SVD+KNN文本分类算法效果对比。文本分类中的初始特征-文本矩阵往往会有很高的维度,给后续的计算带来了很多不便。而通过简单的特征选择方法,虽然降低了维度,但是不能解决特征词之间的同义词与多义词问题。而特征抽取(比如潜在语义分析)通过对特征语义空间的转换,形成新的语义空间,消除了“噪音”。SVD算法作为潜在语义分析的代表工具,很好地完成了这项工作。在潜在语义分析中,SVD的K值选择策略极大地制约着文本分类的效果,本文选择的K值百分比策略能很好地提高文本分类的精度与速度,提出的拟合度概念能很直接地比较两个矩阵的相似程度。本文通过大量的实验对比,验证了OpenMP对SVD算法的优化效果;验证了K值百分比策略对特征-文本矩阵良好的降维效果和与初始矩阵较高的拟合度;验证了SVD算法能较好地解决同义词和多义词问题,同时提高了文本分类的精度和速度。
其他文献
本论文研究日粮中亚麻油添加水平及屠宰前亚麻油添加时间对肉仔鸡肉品质、脂肪酸组成及脂肪代谢的影响,从肝脏和脂肪组织中脂肪代谢相关基因mRNA表达量上探讨亚麻油对脂肪代谢
图书馆员伦理就是图书馆员在履行职责的过程中应该遵循的价值取向与行为规范的总和。图书馆员伦理属于职业伦理或专业伦理范畴。图书馆员伦理是一种责任伦理,图书馆员所履行
社会经济的快速发展,家庭模式的进一步核心化,特别是独生子女政策的实施,使得家庭养老功能进一步被极大削弱,家庭已经无法承担完全性的赡养责任。然而,当代孝文化及相应的法
卡特福德的翻译转换理论,是建立在韩礼德的"阶和范畴语法"之上的。通过对"翻译转换"理论的起源、实质及分类的介绍,旨在强调在翻译过程中翻译转换的必要性。同时,在对源语和
智慧城市信息交互是保障智慧城市运行、完成服务功能的重要基础。在不同的平台、系统及应用间进行信息交互时,各接口间需提供应用、基础数据库、行业系统与平台的接入/撤销、
LTE网络的TAU指标对评估用户上网体验有着非常重要的意义。TAU成功率低,用户上网会出现频繁掉线的情况。另外,CSFB通话完成后,需要从2G网络返回到4G网络,TAU失败会增加返回的
回顾近40年中国草地资源经营发展历程,分析了存在问题及其原因,提出了当前任务:1.要明确工作总则,围绕生态与小康两大目标,思考与部署草地资源经营工作;确立草地生态置换理论
在扬演奏中真正能动人心弦的乐曲要求演奏者不仅具有娴熟的技巧,还要有真情实感的流露。一首乐曲,惟有感动自己尔后才能打动听众。扬琴演奏是听觉的艺术,也是表演的艺术,只有
随着我国社会主义市场经济体制改革的不断深入,我国社会经济得到快速发展,我国已形成了一大批具有相当规模,实力雄厚的企业集团,对社会经济和人民生活的影响日益加强。与此同
建立统筹城乡的基本医疗保险制度是我国医疗保险发展的大趋势。在城乡二元体制下,医疗保险制度呈现出"三块两制"的特点。近年来,一些地区在整合城乡医疗保险制度方面进行了先