【摘 要】
:
特征选择目前已成为机器学习研究领域的热点之一,其核心是根据某一评估准则从原始特征中获取能够保留初始物理特征的特征子集。粗糙集理论是被用于描述分类数据不一致程度的
论文部分内容阅读
特征选择目前已成为机器学习研究领域的热点之一,其核心是根据某一评估准则从原始特征中获取能够保留初始物理特征的特征子集。粗糙集理论是被用于描述分类数据不一致程度的数学工具,现已将其运用在处理离散型符号数据的分析任务中。模糊粗糙特征选择方法能有效的解决符号、实值数据和二者的混合数据,对其进行改进可以获得更加简单和容易理解的学习模型。粗糙集理论运用属性的依赖度或不确定度去构建特征选择算法时,需要先对数据集进行等价划分求得正域或边界域。这种利用等价划分来求解依赖度或不确定度的计算过程较复杂,不利于在规模较大的数据集中应用。本文首先在粗糙集离散型数据的基础之上,提出了基于非唯一决策差异熵的特征选择算法。先将非唯一决策度的三种不同数学模型用于数据中边界域信息的计算,然后用差异熵去评价属性子集的重要程度进行约简操作,其中非唯一决策度的计算简化了粗糙集不一致度的求解过程。其次,本文针对广泛存在的符号型、布尔型、缺失值和数值型数据共存的混合信息系统,研究了基于模糊相似关系的非唯一决策数学模型,得到了基于混合数据的非唯一决策差异熵的特征选择算法,在保证分类精度的前提下简化在混合信息系统中不确定度的计算过程,提升了特征选择算法的效率。本文采用UCI中八类符号型数据集和九类混合型数据集进行实验分析,分别将非唯一决策差异熵的特征选择算法与其他算法在分类精度与AUC值两方面进行对比分析,其中对比算法包括蚁群算法、模糊粗糙快速约简算法、主成分分析算法和粒子群算法。实验结果表明基于非唯一决策差异熵的特征选择算法能够使得约简的效果显著提升,同时得到的特征子集具有较高的分类精度和AUC值,这证明了本文所提出的算法具有现实研究意义。
其他文献
[目的]近年来,随着胃镜检查技术的提高和普及,特别是中年以上有胃癌发病高危因素的慢性萎缩性胃炎、胃溃疡患者,早期诊断和治疗可以预防胃癌的发生,然而肿瘤的快速生长和远处
防碰撞技术在数控加工和测量设备中已经扮演着越来越重要的角色,它是实现智能制造和智能测量的关键。在防碰撞系统中,零件及位姿的识别是通过保证虚拟空间和实空间的一致来实
目的:分析不同时间段复发转移的肝细胞性肝癌(hepatocellular carcinoma,HCC)长链非编码RNA(long non-coding RNA,LncRNA)的表达谱,验证其差异表达,探讨LncRNA与肝癌术后复发
足球机器人系统是一个集环境感知、动态决策、行为控制、行为执行的大系统,是机器人学与人工智能的一个结合点。路径规划及对抗决策是足球机器人决策系统的重要组成部分,路径
近年来,在现代企业管理模式中,采购管理逐渐成为企业核心竞争力的要素之一。为了充分满足生存发展和提高效益的目的,企业越来越重视供应链管理模式下的采购管理。另一方面,随
特征选择是一种有效的数据降维技术,主要任务是从原始数据集中选出最具代表性的特征子集,这些特征子集可以表达原始数据集的含义,并且可以代替原始数据集对未知数据进行预测
基于程序频谱的缺陷定位方法可以有效地辅助开发人员定位软件内部缺陷,但大部分已有自动化方法在解决多缺陷定位问题时表现不佳,部分效果尚可的方法因复杂度较高或需要开发人
近年来,随着短距离无线通信设备的快速发展与制造技术的不断提高,短距离无线通信设备的车载自组织网络、星际互连网络、野生动物追踪传感器网络、社交机会网络等机会网络大量
当今无人机愈发普及,执行任务更加多样,使用环境越来越复杂,这对无人机信道编码的自适应性能需求越发强烈,特别是对用于控制无人机的前向链路的短码长信道编码的自适应性提出
随着互联网的快速发展和信息交互的不断进步,云计算得到越来越多人的关注。相比传统的单机计算模式,云计算在大规模计算和存储上有着明显的优势。但同时也带来了更多的安全问