融合标记关系的多标记数据建模研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:adfazzzzzzzzzzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实中的数据往往具有多标记性。例如,一张图片可能同时包含“沙漠”、“骆驼”和“蓝天”等语义标注;一篇新闻报道可能同时包含“经济”、“战争”和“政治”等主题;一段话可能同时包含有“愉悦”和“悲伤”等情感。多标记数据的高维性,会增加分类、聚类等数据挖掘任务的困难性,如增加挖掘算法的时间复杂度以及模型的复杂度等。特征选择是一种保证对挖掘结果不变差的条件下,尽量使用较少的特征进行建模的数据预处理技术。目前的多标记数据特征选择研究还未对标记之间的关系进行充分利用,同时在特征选择后,直接使用已有的分类,未很好的利用特征选择的结果。为此,融合标记关系,开展多标记数据的特征选择以及针对特征选择结果的分类器的设计研究,主要研究内容和结论如下:(1)基于模糊不一致对的多标记属性约简本文将每个标记视做一个随机变量,利用KL散度度量标记关系,结合该标记关系,赋予每个标记以权重,结合标记权重定义模糊不一致样本对。用属性对模糊不一致样本对的区分能力定义属性重要度,提出了一种基于模糊不一致对的多标记属性约简算法。在对8个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。(2)融合标记关系的K近邻多标记分类器由于在多标记数据集上,不同标记可同时出现0值或者1值,为此,我们考虑标记之间可能存在线性关系,并利用关联规则进行挖掘,结合挖掘结果赋予标记权重,得到标记排序序列。结合标记权重与已有属性约简算法,得到约简后的特征子集,用特征子集定义样本距离的度量公式,结合标记排序序列与标记之间影响力,提出一种融合标记关系的K近邻多标记分类器。在对5个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。总之,本文在多标记数据的特征选择以及针对选择结果分类器中,融合标记关系,较以往未融合标记关系进行多标记数据的特征选择效果与分类效果有一定的提升,为多标记数据的处理提供新的方法。
其他文献
随着网络技术、控制技术和传感器技术的发展,多智能体系统(MASs)的一致性控制已被广泛应用于交通控制、电力系统、机器人、无人机及军事等多个方面,也为此受到了研究学者们的
随着技术的发展,视频和照片数据快速增加。对这些图片和视频中的特征进行分析有助于我们了解人类的行为,具有重要的理论和实践意义,因此我们需要分析姿势和姿势序列的特征。
网络语音通信随着即时通讯软件的快速发展而迅速普及,这吸引了广大学者开始研究使用网络语音流作为隐写的载体。基于网络语音流的隐写可以保证信息隐秘而安全地传输,从而导致
随着工业的快速发展,环境恶化与化石能源枯竭成为了人类亟需解决的两大问题。太阳能具有存量丰富,洁净环保等优点,因此,对于如何有效的利用太阳能成为了世界各国研究的热点。
船舶操纵与运动控制系统是一个伺服系统,受外界干扰影响显著,存在输入饱和、时滞、死区等特征。同时,船舶运动数学模型具有强不确定性、非线性等特征,设计具有良好控制性能的
由于良好的力学性能和机械性能,如断裂韧性和时效强度高、比强度高、冷成型好等,钛及钛合金材料在航空航天等诸多重要领域都有重要应用。但钛及钛合金材料的一些固有缺陷制约
复合材料相较于其它材料具有较的质量,良好的耐腐蚀性能,较高的强度和刚度,因其众多优点被广泛的应用到航空航天与军工领域。复合材料在制造中,可能受到工艺,生产环境因素的
自2006年Pfeiffer提出基于常规X射线源的光栅相衬成像方法以来,此相衬成像方法得到了广泛的研究,并最有可能应用于实际生活中。该成像方法的优点是在常规X射线源中就可获得相
功率放大器(Power Amplifier,PA)是无线通信系统中不可或缺的器件,其性能好坏直接影响着整个无线通信系统的工作质量。由于功放的核心器件是半导体晶体管,其本身呈现出固有的
随着高科技的不断发展,人们的生活越来越便利的同时,也给个人和社会带来信息安全的隐患,利用高科技手段伪造身份证、银行卡及知名品牌的商标等重要证件,给个人财产、商业以及