面向代价敏感多标记数据的特征选择研究

来源 :江西农业大学 | 被引量 : 1次 | 上传用户:bonbonty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的发展,数据量呈现爆发式增长,数据的形式复杂多样,数据的语义日益丰富,特别是多标记高维数据的广泛存在,传统的单标记分类将一个样本只归为某一个标记中,导致无法描述当一个样本属于多个标记的问题,需利用多标记分类来描述此类数据资源,对于多标记数据的分析和挖掘已成为机器学习和数据挖掘领域的研究热点之一。由于多标记高维数据的维数灾难问题严重影响多标记学习的分类性能。因此,针对多标记学习的特征选择研究显得尤为重要。当前对于多标记数据的特征选择研究大多是针对完备性数据,但在许多应用领域中连续型数值数据较多,且由于诊测成本和隐私保护等因素导致数据往往呈现出不完备性。另外,数据的获取往往需要花费代价,为解决上述问题,研究面向代价敏感多标记数据的特征选择模型与算法,下面简单概括本文的创新点:首先,针对多标记数据的不完备性,提出了一种面向多标记不完备数据的特征选择算法。该算法将邻域粗糙集模型应用于多标记不完备数据的特征选择中,根据容差邻域阈值求解多标记不完备数据的邻域粒度,并基于邻域粒度给出了度量多标记不完备数据的特征重要性准则,以此设计了多标记不完备数据的特征选择算法。该算法能够有效地处理多标记不完备数据的优势,通过四个真实数据集的实验结果验证了本文算法的有效性和可行性。其次,从代价敏感的研究视角,设计出一种基于代价敏感的多标记不完备数据特征选择算法。该算法利用粗糙集模型计算多标记不完备数据下的邻域粒度,并用均匀分布和正态分布两种分布函数计算每个特征的特征代价,在核特征的基础上,重新设计了一种基于测试代价的特征重要性计算方法。该算法解决了不完备数据的特征代价问题,通过实验验证该算法具有较好的分类性能。另外,为了分析多标记数据中信息的不确定性,利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记学习中Mulan数据集上的实验结果进一步验证了该算法的有效性和可行性。
其他文献
城镇化是经济发展的引擎,能带动经济增长并促进产业结构优化升级,是解决我国三农问题的重要途径。十九大之后,我国城镇化进入发展关键期,《国家乡村振兴战略规划(2018-2022年
呼伦贝尔、科尔沁、浑善达克和毛乌素沙地,是中国北方土地沙化和风沙危害较为严重的地区,是防沙治沙的重点区域和构建国家北方生态屏障的关键区;同时,由于该区域生态环境脆弱,生态系统对气候变化和人类活动的扰动也非常敏感。了解四大沙地植被覆被变化、典型植被景观格局及其影响因子,能够为沙区植被建设与恢复、固沙植被的选择等提供一定的科学依据。本研究选取利用1990~2015年的Landsat TM和ETM系列数
国有农场是在特定的历史背景下为完成特殊任务而建立的,是我国计划经济时期形成的一种特殊的单位组织。在中华人民共和国成立初期,为支援国家建设发挥了不可替代的作用。学界关于农场的研究有很多,大多集中在农场的改革和管理体制创新方面,很少有关于农场社会融合的研究。本文从社会融合视角出发,以勐满农场五分场为研究对象,分别从制度层面、经济层面和社会关系网络层面三个维度来分析以汉族为主体的农场融合到当地少数民族社
自适应光学(AO)技术被广泛应用于各类光学系统,以提高系统的光学性能。一直以来,对AO系统的研究主要关注其光学性能指标,为了获得更高的成像能力,不断尝试增加校正器的单元数
随着社会的飞速发展,人群密集的场所随处可见。对特定场景下的人员进行统计分析,实现人机交互式的统计分析算法,可为城市资源优化配置、现代安防、商业信息采集等提供有效可行的技术手段。本文基于视频监控系统,采用视频分析技术,围绕特定场景人员统计及其特征细化开展研究,这不仅具有重要的理论意义,也具有鲜明的实际应用价值。围绕基于视频的场景人员统计分析及其人员特征细化,本文主要开展了如下工作:首先,本文阐述了当
随着信息时代的到来,导致数据量不断增大,这样人们就需要花费大量的时间去筛选有用信息,这种现象就是“信息过载”。协同过滤推荐系统在很大程度上缓解了“信息过载”现象,但是由于其自身的开放性,使其在受到攻击时呈现出脆弱性导致推荐结果不准确。灰色组织的攻击具有一定的策略性,可以在短时间内改变推荐结果。因此,如何有效识别群组攻击,成为了急需解决的问题。本文从用户评分偏移与时间序列的角度入手,对群组攻击检测问
近些年,关于不确定非线性系统控制问题的研究受到越来越多的关注,并取得了显著的成果。而预定性能控制可以保证控制系统的性能达到预先设定的要求,关于预定性能控制的研究已经应用到许多领域。论文针对一类具有外界干扰/未知参数的非线性系统的控制问题,提出新型的预定性能控制策略,主要研究内容如下:首先,针对一类具有外界干扰的非线性系统的跟踪控制问题,设计预定性能反步控制策略。为保证系统的预定性能,设计障碍Lya
Markov跳变系统是一类具有多模态的随机系统,该系统通过一组随机Markov链来刻画系统在不同模态间的跳变转移规律,且转移速率不随时间的变化而变化,但Semi-Markov跳变系统的转移速率会随时间的变化而变化,拓宽了概率分布函数的限制条件。因此本文研究了正常的Markov跳变系统、Semi-Markov跳变系统及广义Markov跳变系统的滑模控制问题,同时考虑了随机不确定性、时变时滞、输入饱和
近年来,移动社交网络(MSN)成为人们日常生活不可缺少的一部分。移动社交网络包括大量的社交成员,他们可以共同协作发送消息。但是恶意消息发送者干扰了社交媒体平台的正常运
随着时代的进步,自动化程度的提高,随机系统在人类社会生产活动中的应用越来越广泛,它涉及火力控制系统、工业过程控制、经济模型控制以及生物医学等领域。在随机控制系统中,连续时间随机系统是其中一个重要的分支,它常可由一个随机微分方程来描述。对实际系统精确建模,然后再制定适当的控制策略,使系统达到稳定一直以来是学者们的关注点。随着研究的深入,建模后的系统变得愈发复杂,它们通常包含时滞、不确定参数、非线性及