基于支持向量机的网页文本分类技术研究

被引量 : 0次 | 上传用户:yuxume
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络上的网页信息成指数级增长。人们希望对网页进行快速分类,从而有效地获取有价值的信息。网页文本分类是实现快速信息检索的一项重要技术。目前,网页文本分类技术已经在数字图书馆、搜索引擎、新闻分类等应用领域得到了广泛的应用,具有重要的研究价值。网页文本分类是以纯文本分类为技术基础的,文本表示常采用的方法是向量空间模型,而文本向量具有高维、稀疏性大等特征,大多数分类算法会出现维灾难。支持向量机(SVM)不仅有着扎实的理论基础,而且在处理高维数据的时候能有效地避免维数灾难,具有较好的泛化性能。因此,支持向量机是解决文本分类问题一个常用方法之一,在文本分类中有着很大的应用价值。本文主要的研究工作包括:1、介绍了网页文本分类的研究背景和意义,以及文本分类在国内外的研究现状和网页文本分类技术的研究热点问题。对网页文本分类的相关技术进行了详细地分析,这些关键技术包括:网页文本预处理、网页文本表示方法、常用的特征选择方法、文本分类的几种评估标准和几种常见的文本分类技术。并深入地介绍了支持向量机的原理和技术。2、提出了一种改进的权重计算方法。由于网页中不同标签内的特征项对于分类的影响是不同的,并且特征项在正文中出现的不同位置也有不同的语义特点,因此针对这些特征,本文对网页特征进行了详细分析,并提出了一种根据HTML语义和特征项的位置对特征项进行加权处理的权重计算方法。通过实验表明,使用该改进方法来处理网页文本,最终能得到相对较好的分类效果。3、目前支持向量机在处理大规模样本集时,会消耗大量的时间和过大的内存。针对这个问题,本文研究了支持向量机的特性,发现SVM的训练结果仅与支持向量有关,由此对支持向量机方法进行改进,提出了一种基于模糊聚类的两阶段支持向量机算法。该算法首先通过模糊C均值聚类算法对初始样本集进行约简,仅使用统一簇的中心点和混合簇中所有样本作为训练集。若该样本集包含有足够多样本,则仅对样本进行一次加权支持向量机训练,算法结束。若该样本集仅占原始样本的一小部分,则可能会因为丢弃了大量对分类有效的支持向量,极大地降低了分类的精度,因此依据第一阶段加权SVM得到的近似最优超平面,对靠近该超平面的聚类中心点解聚类。将解聚类后的样本和混合簇样本作为训练集,进行第二阶段的标准SVM操作,得到最终的最优超平面。通过实验表明,该方法基本保持了标准SVM的分类精度,并加快了训练速度。改进的分类方法在大规模的样本集上有着明显的优势。
其他文献
目前湿地环境健康问题备受国内外学者广泛注意。泗洪洪泽湖湿地自然保护区是江苏省最大的国家级湿地自然保护区,近年来自然环境的变化和人类活动的加剧,极大的削弱了湿地的功
大别北缘的北淮阳地区以出露大量中生代火山岩为特征。相比邻区的大别地区花岗岩和长江中下游地区火山岩,北淮阳中生代火山岩研究比较薄弱。这严重制约了对大别碰撞后演化过
新创企业早期成长中都会遇到创业团队的资质、创业机运、创业资源及创业盈利模式等四大关键成功要素(KSF)的制约,其中,异质性资源的塑造和整合是竞争优势的的基础。本文通过
有机化学[organic chemistry]化学的重要分支学科。研究有机化合物的来源、结构、性质、分离、制备、应用以及有关理论的一门学科。由于有机化合物都含有碳原子,因此有机化学
第一部分SIPA1在宫颈癌中的表达及临床意义目的探讨信号诱导增殖相关蛋白1(signal induced proliferation associated protein1, SIPA1)在宫颈癌中的表达及其与临床病理特征
随着我国沿海城市的快速发展,面对资源、人口和城市生活圈压力的不断增大,这些城市的建筑密度也不断增加,地下空间的开发与利用显得越来越重要,随之而来的深开挖工程也越来越多。
供应链风险偏好问题是当前的研究热点,以往学者在研究供应链协调策略时多考虑供应链成员是风险中性的情形,较少考虑当供应链成员为风险追逐或风险厌恶的情形。本文在总结前人
  本文以自动换挡操作系统的换挡球头、换挡面板、换挡座及防误操作线(ASL)为例,从几何布置、结构设计、加工工艺、装配性及成本面分析,对自动换挡操作机构的设计开发总结出
<正>草莓味甘、酸,性凉,归肺、脾经。具有润肺生津,健脾,消暑,解热,利尿,止渴的功效;主治风热咳嗽,口舌糜烂,咽喉肿毒,便秘,高血压等症。明目:草莓中所含的胡萝卜素是合成维