面向符号数据的高效特征选择算法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:huanjian1012004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人们日常的生产生活中每天都在产生着海量规模的数据集,如何高效地从这些数据中获取知识是目前众多专家学者广泛关注的问题。数据挖掘是指从海量的、不完整的、模糊的实际数据中提取隐含在其中有用信息和知识的过程,特征选择是数据挖掘中广泛应用的一项数据预处理技术。在我们现实生活中的数据并不完全是静态的、完备的,比如会存在着标签缺失、数据动态变化等情况。对此,针对这类数据集如何高效的从中获取知识是本文的主要研究内容。本文利用粗糙集理论和信息熵作为工具,针对于符号数据,主要包括以下三方面的研究内容。一、针对含有缺失信息的动态数据集中由维数动态变化引起特征选择结果的更新问题,通过深入分析互补信息熵在含有缺失数据取值的数据集中维数增加时的更新机制,进而提出一种缺失数据维数增量式特征选择算法,并通过实验对新算法的可行性和高效性作了进一步的验证。二、针对于部分标记数据如何进行高效特征选择的问题,本文基于粗糙集和信息熵的概念,提出了一种基于信息熵的粗糙特征选择算法。通过分析给定数据集上有标记数据集和无标记数据的信息熵,重新定义了整个数据集上的信息熵。在此基础上定义了半监督意义下基于信息熵的特征重要度,设计了一种基于信息熵的可有效处理含有部分标记数据的半监督粗糙特征选择算法,并通过实验进一步验证了算法的高效性与有效性。三、针对于部分标记数据集的特征选择,通过引入数据对象耦合相似度的定义,重新设计了ReliefF算法中的距离度量,由此设计了一种基于ReliefF算法的半监督特征选择算法,实验结果也验证了算法的有效性。本文通过分析现有特征选择过程中所存在的现实问题,设计了三种高效特征选择算法,可有效的处理动态数据集和部分标记数据集中目标特征子集的有效选择问题,可为后续的数据挖掘以及知识发现提供可以借鉴的新思路,并对处理相关问题提供了新的研究方法和理论支撑。
其他文献
随着信息和通信技术的迅速发展,人们对通信系统保密性能的要求日渐增高,信息安全问题得到了重点关注和研究。目前主流保密机制主要依托于以密码学为核心的加密方法,其发展十
步态识别是一种利用行人走路姿态进行识别或者辅助鉴别身份的生物特征识别方法。相比其他方法有其独特的优势,具有广阔的应用前景。但在步态识别的研究过程中,仍有许多问题有
换热设备广泛应用于冶金、电力、化工、航空等工业生产领域。随着换热设备运行,在管壁会逐渐形成污垢,污垢的存在将导致换热设备传热效率降低,增加能源消耗,同时也会给换热设
本文通过溶液共混的方法制备了聚乳酸(PLA)/含离子液体基元齐聚物(IL)和聚乳酸(PLA)/聚己内酯(PCL)/IL共混物试样。利用差示扫描量热仪(DSC)、偏光显微镜(POM)、X射线衍射仪(
随着民用航空的迅猛发展,飞机数量日趋增多,飞行流量不断加大。若同一时间同一空域的飞机航线密集,很容易造成空中交通拥堵,严重时可能诱发事故。因此,对民航管制的要求也越
习近平总书记在参观红军长征湘江战役纪念馆时深刻指出,湘江战役是红军长征的壮烈一战,是决定中国革命生死存亡的重要历史事件。在湘江战役中,处处闪耀着中国共产党人理想信念的光芒,无数先烈用顽强的斗争和不屈的意志证明:艰难可以摧残人的肉体,死亡可以夺走人的生命,但没有任何力量能够动摇中国共产党人的理想信念。在生死存亡的历史关头彰显铁的纪律  1934年11月,中央红军在连续突破国民党三道封锁线后,在湘江边
在中国制造2025的影响下,工业机器人和智能化产品的发展也越来越迅速。机器人作为新时代的重要发展领域,也是现在社会上流水线上常用的机械设备。目前很多危险、高强度的工作
分布式光纤传感技术在大型设施健康安全监测领域有着越来越多的应用,其中φ-OTDR技术依靠其对振动信号的实时感知和处理能力,适合作为需要特性如长距离,大范围,实时性的设施
随着当代互联网技术的飞速发展和互联网信息的快速传播,推荐系统已经成为帮助用户获取有效信息的重要手段。协同过滤算法是推荐系统最常用的技术手段,但是传统的协同过滤推荐
飞蛾优化算法(Moth-flame Optimization Algorithm,MFO)模拟了飞蛾在月光下飞行时横向定位的导航机制,是一种基于螺旋飞行的新型优化方法。该算法由于其结构直观,易于操作,搜