基于LSI和SVC的网页文本分类算法研究

来源 :长沙理工大学 | 被引量 : 3次 | 上传用户：nowolfjin

【摘要】

：

随着网络的高速发展,许多的文档数据涌现在互联网上,自动文本分类技术变得极为重要,已渐渐成为组织和处理海量文档数据的关键性技术。文本预处理的好坏决定着分类器的分类性

【作者】

：

黄辉

【机构】

：

长沙理工大学

【出处】

：

长沙理工大学

【发表日期】

：

2010年01期

【关键词】

：

网页文本分类文本聚类特征选择支持向量聚类潜在语义索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的高速发展,许多的文档数据涌现在互联网上,自动文本分类技术变得极为重要,已渐渐成为组织和处理海量文档数据的关键性技术。文本预处理的好坏决定着分类器的分类性能。本文研究了文本预处理和文本分类算法,有效地提高了分类器的分类正确率和查全率。论文主要做了以下工作:(1)介绍了网页文本系统的概念与意义,介绍了几种新的网页文本分类算法,分析了现有的网页文本分类算法中存在的问题并对网页文本分类算法的发展方向做出展望;(2)将潜在语义索引理论知识应用到网页文本特征的降维,潜在语义索引通过奇异值分解技术将词频矩阵转化为奇异矩阵,通过潜在语义索引可以将文本中同义词、近义词用一词根代替,以降低网页文本的特征向量维度,达到减少计算量的目的;(3)将支持向量聚类应用于网页文本分类。支持向量聚类是一种基于小样本的聚类算法,能处理各种形状的聚类,无需事先指定聚类数目,而且参数少,容易处理文本特征向量的高维数据。针对网页文本分类的特点,采用小样本训练机制,减少了存储空间的占用并减少了后续训练的时间;实验表明,该方法可以提高网页文本分类的准确率。本文研究了基于潜在语义索引和支持向量聚类的网页文本分类算法,提高了网页文本分类算法的准确率。从理论上给出了这种方法可行性的依据,通过实验验证了这种方法的可行性和有效性,是一种具有应用价值和实际意义的网页文本分类方法。

其他文献

基于Super-peer结构的P2P数据库模式匹配研究

模式匹配技术在当今已经成为众多领域的研究热点,如：数据集成,数据仓库,数据挖掘。其作用是为异构数据源提供两个或多个模式间的元素(属性)间对应关系,关键是如何寻找两个元素

学位

P2P系统Super-peer结构模式匹配可扩展性语义对应

Web应用程序脆弱性自动化分析技术的研究与实现

Web应用程序上线前进行脆弱性分析测试以发现其潜在漏洞具有重要的意义。目前,对Web应用脆弱性的分析测试多是由人工操作或使用部分工具软件以辅助人工操作来完成,自动化水平

学位

Web应用程序脆弱性响应分析

基于人工鱼群算法的电容层析成像图像重建

电容层析成像技术(ECT)是一种用于混合绝缘介质的新型非侵入式成像技术,它具有非侵入性、响应速度快、结构简单、成本低、适用范围广等优点,目前已经应用于多种基于成像的过

学位

电容层析成像人工鱼群径向基神经网络图像重建

基于windows的磁介质数据清除技术的研究与实现

如今,磁介质存储器以及上面所存储的涉密数据的安全性受到越来越高的广泛关注。在政府机关、重要的企事业单位,尤其是安全保密要害部门,大量的计算机中存储了重要的、敏感的

学位

Windows文件系统磁盘分区信息安全数据清除DoD标准Gutmann算法

基于流密度峰值的集体行为识别算法研究

集体行为是指视频场景中的运动个体之间具有相似性运动的一种群行为模式,是在自然界中普遍存在的一种现象。集体行为的研究与人类的生活息息相关,一直以来都吸引着很多不同学

学位

集体行为流密度聚类算法视频应用

血清蛋白指纹图谱对多发性骨髓瘤诊断及分期诊断价值研究

目的多发性骨髓瘤(multiple myeloma,MM)是一种恶性克隆性浆细胞肿瘤,其起病隐匿,误诊、漏诊率高。本研究通过对MM患者及健康对照组的血清样本进行检测分析,探讨应用表面增强

期刊

多发性骨髓瘤指纹图谱血清蛋白SELDIBiomarker浆细胞肿瘤myeloma蛋白峰蛋白芯片特异性

扎实有效地做好组织工作

2008年是贯彻落实十七大精神的第一年,也是加快推进振兴吉林、富民强省进程的关键一年。全省组织工作总的要求是:全面贯彻党的十七大及省九次党代会精神,高举中国特色社会主

期刊

组织工作干部工作领导班子建设干部监督邓小平理论干部任用党员队伍党员干部初始提名选人

基地QoS约束的多播路由算法研究

随着Internet的飞速发展，通过网络传输的数据急剧增加，许多新的多媒体业务正在成为信息传送的重要组成部分。而传统的单播通信方式满足不了新业务的需求，多播技术的出现解决了上

学位

网络传输多播树时延抖动多播路由算法服务质量

虚拟漫游中的虚拟计算算法研究

本文研究了基于几何模型以及图像处理的可见性剔除技术;基于几何模型的实时绘制技术,包括实例化、多边形简化、层次细节、多分辨率模型简化等技术:基于图像处理的实时绘制技

学位

虚拟现实漫游BSP路径规划碰撞检测

中视电传携金龙鱼等客户喜获第21届中国国际广告节大奖

2014年10月25日,以“创新促发展,创意赢未来”为主题的第21届中国国际广告节在贵阳国际会议展览中心盛大开幕,国内外广告业界5万多人士相聚贵阳,共飨盛会。在本次广告节重头

期刊

国际广告节长城奖中国广告广告业界广告节会议展览中心家纺中国广告协会整合传播未来

基于LSI和SVC的网页文本分类算法研究

与本文相关的学术论文