基于LSI和SVC的网页文本分类算法研究

来源 :长沙理工大学 | 被引量 : 3次 | 上传用户:nowolfjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的高速发展,许多的文档数据涌现在互联网上,自动文本分类技术变得极为重要,已渐渐成为组织和处理海量文档数据的关键性技术。文本预处理的好坏决定着分类器的分类性能。本文研究了文本预处理和文本分类算法,有效地提高了分类器的分类正确率和查全率。论文主要做了以下工作:(1)介绍了网页文本系统的概念与意义,介绍了几种新的网页文本分类算法,分析了现有的网页文本分类算法中存在的问题并对网页文本分类算法的发展方向做出展望;(2)将潜在语义索引理论知识应用到网页文本特征的降维,潜在语义索引通过奇异值分解技术将词频矩阵转化为奇异矩阵,通过潜在语义索引可以将文本中同义词、近义词用一词根代替,以降低网页文本的特征向量维度,达到减少计算量的目的;(3)将支持向量聚类应用于网页文本分类。支持向量聚类是一种基于小样本的聚类算法,能处理各种形状的聚类,无需事先指定聚类数目,而且参数少,容易处理文本特征向量的高维数据。针对网页文本分类的特点,采用小样本训练机制,减少了存储空间的占用并减少了后续训练的时间;实验表明,该方法可以提高网页文本分类的准确率。本文研究了基于潜在语义索引和支持向量聚类的网页文本分类算法,提高了网页文本分类算法的准确率。从理论上给出了这种方法可行性的依据,通过实验验证了这种方法的可行性和有效性,是一种具有应用价值和实际意义的网页文本分类方法。
其他文献
模式匹配技术在当今已经成为众多领域的研究热点,如:数据集成,数据仓库,数据挖掘。其作用是为异构数据源提供两个或多个模式间的元素(属性)间对应关系,关键是如何寻找两个元素
Web应用程序上线前进行脆弱性分析测试以发现其潜在漏洞具有重要的意义。目前,对Web应用脆弱性的分析测试多是由人工操作或使用部分工具软件以辅助人工操作来完成,自动化水平
电容层析成像技术(ECT)是一种用于混合绝缘介质的新型非侵入式成像技术,它具有非侵入性、响应速度快、结构简单、成本低、适用范围广等优点,目前已经应用于多种基于成像的过
如今,磁介质存储器以及上面所存储的涉密数据的安全性受到越来越高的广泛关注。在政府机关、重要的企事业单位,尤其是安全保密要害部门,大量的计算机中存储了重要的、敏感的
集体行为是指视频场景中的运动个体之间具有相似性运动的一种群行为模式,是在自然界中普遍存在的一种现象。集体行为的研究与人类的生活息息相关,一直以来都吸引着很多不同学
随着Internet的飞速发展,通过网络传输的数据急剧增加,许多新的多媒体业务正在成为信息传送的重要组成部分。而传统的单播通信方式满足不了新业务的需求,多播技术的出现解决了上
本文研究了基于几何模型以及图像处理的可见性剔除技术;基于几何模型的实时绘制技术,包括实例化、多边形简化、层次细节、多分辨率模型简化等技术:基于图像处理的实时绘制技