基于文本特征的降维技术研究

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:qyqwoaini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅速发展,网络中产生了海量的文本数据信息,如何对这些海量数据进行分析与处理,挖掘出有用的信息已经成为当前亟待解决的难题,数据挖掘技术应运而生。数据特征维数的急速增加给数据挖掘任务带来了巨大的挑战,降维技术是对高维数据进行预处理的有效方法,特征选择算法是降维技术中应用最为广泛的方法。但传统的单一特征选择算法存在冗余、噪声信息以及聚类精度低等问题,针对这些问题,本文从下面两个方面进行了研究:针对单一特征选择算法存在不相关、冗余特征以及聚类精度低等问题,提出一种基于差分进化的两阶段文本特征选择算法。该算法在过滤阶段使用方差及平均中位数分别计算特征相关评分值,将各自评分值靠前的特征进行融合,过滤不相关特征,得到高相关性特征子集,实现特征的初步降维;封装阶段采用改进的差分进化算法提取最优特征子集,进一步降维。改进的差分进化算法利用文档频率和累积特征词频率构建适应度函数,并在变异操作中引入局部最优特征及多个差向量策略,加快算法的收敛速度,提高算法的全局搜索能力。在不同数据集中进行仿真实验,仿真结果表明:聚类任务中,该算法在有效降低文本特征空间维度的基础上,显著提高了聚类的准确率、召回率及F1值。为了消除特征子集中存在的噪声特征,提高特征选择算法的类间区分度,提出一种三阶段文本特征选择算法。在第一阶段该算法使用改进的平均绝对差方法从原始特征空间中过滤不相关特征;第二阶段,使用结合特征模长的绝对余弦方法从相关特征空间中去除冗余特征;第三阶段,利用主成分分析方法将高维相关和非冗余特征空间转换成无噪声低维特征空间,获得最优的特征子集。仿真结果表明,本文提出的算法与其他算法对比能获取更好的准确率、召回率和F1值,有效的去除了噪声特征,选择出的特征子集具有良好的类间区分度。
其他文献
试验用递减法测定了蒙、汉族学生122例(蒙古族63例,汉族59例)纯音听觉绝对阈限,并绘制了听阈曲线。统计结果显示:蒙古族与汉族对多数频率声音的听阈无显著差异,不同性别之间
航天飞行器舱体作为承载和连接各个功能件的关键零件,其制造精度对飞行器的性能有着重要的影响。随着航天事业的不断发展,对飞行器轻量化的要求日益迫切,舱体零件广泛采用整体薄壁结构。目前飞行器的舱体主要由“铸造/焊接+精密数控加工”组合工艺加工而成。因在铸造过程中经历热循环,薄壁舱体零件毛坯外形、壁厚尺寸一致性差而且加工余量分布不均匀,传统数控加工技术存在加工时间长且加工效率低的问题。本文针对个性化舱体毛
巨噬细胞炎性蛋白-1(( Macrophage inflammatory protein-1 beta,MIP-1()是一种对多种效应细胞包括T细胞、B细胞、单核细胞、中性粒细胞及树突状细胞等具有显著趋化作用的新
近年来,随着物理层安全技术不断引起研究者的关注,着眼于信息隐藏的物理层水印技术开始受到重视。信息隐蔽技术一直以来都是热门的研究课题,但是迄今为止大部分研究的载体为多媒体数字信号,即数字水印技术。本文将研究的对象转移到射频信号上,主要研究的是射频水印信号中隐蔽信息的传输技术,我们将其称为物理层水印。而频移键控(Frequency Shift Keying,FSK)调制信号具有实现方法较简单、解调不需
核心员工是企业不可或缺的重要人力资源,是创造企业效益的先行军,如何有效促使核心员工在企业生产经营过程中发挥作用并且有效降低他们的离职率,是企业人力资源管理的难点,也
新媒体时代下,网络技术与媒体平台对高校大学生影响颇深,极大改变了大学生原有的交流方式、思维方式、观念模式以及价值取向的构成。文章通过介绍新媒体呈现的特点、对于大学
背景:Syndecan家族是一类细胞表面跨膜糖蛋白,syndecan-1通过其胞外区硫酸类肝素链与细胞外基质成分、其它细胞表面分子相互作用,在肿瘤生长、分化、转移过程中起重要作用。尽管
目的探讨高龄非酒精性脂肪肝(NAFLD)患者血清25-羟维生素D[25-(OH)D]水平变化及与NAFLD发生发展的相关性。方法选择在北京大学人民医院老年科住院的老年患者434例,年龄为(80.
近些年来,随着人们生活水平的提高和消费观念的变化,人们餐饮消费行为中单纯以“解饥式”为目的的比例大幅度下降,就餐者对服务形式、餐饮风格、环境氛围等要素,越来越注重,