文本特征选择算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:chenken2725115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展,将我们带入了数字化、网络化的信息时代。在海量信息中,如何能快速并有效的提取有用信息成为人们研究的重要领域。文本分类技术是文本信息处理领域重要的核心课题,目的是为了对文本进行类别判定,解决信息杂乱问题。在文本分类中,特征选择方法的研究占主导地位。但现实生活中,我们所要处理的数据往往具有一个明显的自然属性——数据不平衡性,即各类别文本的数量差异很大,或者特征分布不均衡等,这都将导致分类器分类性能的下降。因此,如何改进特征选择方法使其更能适应不平衡数据集的分类问题变得十分重要。随着文本分类方法的进一步完善,它也被应用到很多领域,如垃圾博客、垃圾邮件的检测等。自博客在中国迅速发展以来,很多不法商业者利用博客作为恶意推广平台,这就导致了垃圾博客的产生。由于垃圾博客长时间不被处理,造成了网络和存储资源的浪费,同时也给用户使用搜索引擎带来不便,因此对于垃圾博客过滤的研究非常迫切。本文的研究工作主要包括以下两部分:  首先针对传统信息增益特征选择方法的不足,提出了一种基于信息增益特征关联树的文本特征选择算法,以解决其在非平衡数据集上分类性能差的缺点。第一步,对数据集按类进行特征选择,利用特征分布均匀度和特征关联树模型对类内特征进行降维处理,降低特征冗余度,解决类别分布不均衡对特征选择的影响。第二步,使用类间加权离散度作为平衡因子对信息增益公式进行改进,提高特征在类间的信息增益值的精确度,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。  其次,本文通过对以往垃圾博客检测技术的研究,结合垃圾博客的网页特征,以及特征选择算法的分析,提出了一种基于改进信息增益的垃圾博客检测算法。第一步,提取测试集中所有博客的URL并建立Abnormal list和Normal list,对博客URL和超链接进行关联特征提取。第二步,根据改进的信息增益算法分别对垃圾博客和正常博客的内容特征进行计算并降序排列,再对每个类别的特征计算互信息值,删除负相关特征。第三步,根据特征比例分别从两个类别特征集中选取特征,组成最优特征子集,进行分类器训练。根据建立的URL表以及博客的关联特征对博客进行首次过滤,然后根据训练的分类器进行再判断,使得垃圾博客过滤的效率大大提高。
其他文献
人口老龄化进程的加快,心脏病及心血管疾病在中青年人群中的肆虐和衍生,人们对医疗保健的要求日益增强。随着信息技术及移动互联网的进步与发展,以家庭为中心的医疗模式正在
近几年,基于位置服务(LBS)的广泛应用使得位置定位成为普适计算中一个重要的研究领域。基于位置指纹的WIFI定位技术由于定位成本低、依赖部署的WIFI环境、定位原理简单、实用
随着云计算技术的飞速发展,大规模云数据中心所带来的巨大能耗问题日益凸显。如何有效的降低云数据中心的能耗,成为学术界和商业界关注的焦点。目前云计算数据中心在节能优化研
纱线检测是评价纱线质量的重要方法之一。当前我国检测纱线疵点的方法主要有测长称重法、人工检查法和设备检测法,但这些方法都有不同的优缺点。在纺织行业,增加产品产量的同时
不同的算法可能用不同的时间、空间或效率来完成同样的任务,对于精心实现的算法,往往可以带来更高的运行和存储上的效率。所以研究第一类样条权函数的算法复杂度是非常有意义的
BWDSP100是一款采用了超长指令字体系结构(VLIW)以及单指令多数据流(SIMD)技术相结合的32bit浮点数字信号处理器(DSP)。它是由中国电子科技集团某研究所自主设计、自主研发,拥
近几十年来,视频成像技术经历了黑白、彩色、数字、立体的快速发展过程。电影《阿凡达》的热映,拉开了立体视频的应用热潮。与传统的2D视频相比,立体视频可以产生空间立体感,
近年来,随着世界经济以及现代工业不断飞速的发展,各个领域生产规模的不断扩大,对生产控制系统以及信息的处理要求也越来越高。而分布式控制系统以其良好的性能成为用户的首选,在现代化的今天,基于现场总线的分布式控制系统更是成为研究和应用的热点。CAN总线更是成为诸多现场总线中的佼佼者,被应用到很多的生产以及生活领域,被誉为最有前途的现场总线之一本文研究的就是一种基于CAN总线的分布式电机控制系统,而不是以
随着三维表面重建技术的逐渐发展与成熟,人们为了能够重建出高精度的物体表面,不断地对该技术进行优化和改进,并将其运用于很多领域。其中,将BP神经网络应用于物体表面重建也
随着互联网的迅速发展,分布式计算正在高性能计算、海量数据处理、大规模服务器端技术等领域发挥着越来越重要的影响,成为不可或缺的支柱技术。与此同时,Java虚拟机技术的作