【摘 要】
:
多标记学习在机器学习、人工智能等方面得到广泛的应用。在多标记学习框架下,为了更准确地描述对象,需要收集大量的特征数据,但随着特征数据的不断增加,冗余特征也随之增多,会直接影响分类器的精度并可能增加模型训练时间。特征选择是处理数据高维度问题的一种有效方法,其通过在原始特征空间中删除冗余或不相关特征选择出一组含有原始特征空间全部或大部分信息的特征子集。目前,大部分特征选择算法基本上都依据“最大相关性最
论文部分内容阅读
多标记学习在机器学习、人工智能等方面得到广泛的应用。在多标记学习框架下,为了更准确地描述对象,需要收集大量的特征数据,但随着特征数据的不断增加,冗余特征也随之增多,会直接影响分类器的精度并可能增加模型训练时间。特征选择是处理数据高维度问题的一种有效方法,其通过在原始特征空间中删除冗余或不相关特征选择出一组含有原始特征空间全部或大部分信息的特征子集。目前,大部分特征选择算法基本上都依据“最大相关性最小冗余性”这一准则进行特征选择,但这种方法通常忽略了特征之间可能存在的相互影响和作用。为考虑特征间的相互作用力,本文将排斥损失和万有引力应用到多标记特征选择上,将特征视为原子,特征间也存在引力作用或者排斥作用,并将这些作用力都视为引力场中的力。另外,上述方法选择特征子集都是基于整个特征空间在进行特征选择之前都已全部提前获取到。然而,在实际情况中,有些问题其特征空间和标记空间均呈现增量或动态的特点,如何处理这种动态环境下的流特征选择,值得进一步研究。针对上述问题,本文主要研究工作如下:(1)为考虑特征之间的作用力,借用物理磁极相互排斥吸引的原理,假设特征之间存在吸引或排斥力,并提出基于特征排斥损失的多标记特征选择算法(Multi-label Feature Selection Algorithm based on Feature Repulsion Loss,FS-FRL)。首先利用邻域信息熵理论知识,构造特征吸引项(ATC),用来表征候选特征对标记空间的吸引程度;然后,进一步定义了两个特征排斥项,分别度量候选特征对已选特征子集(RFS)的排斥程度以及对单个已选特征(RFF)的排斥程度;最后,将特征吸引项与特征排斥项二者相结合,构造特征排斥损失函数。(2)针对在线流特征选择问题,在特征损失模型基础上提出一种基于动态滑动窗口与特征排斥损失的流特征选择(Feature Repulsion Loss for Streaming Feature Selection with Dynamic Sliding Window,SF-DSW-FRL),该算法利用有限大小的滑动窗口机制对流特征进行预判断,通过设计的标准选择出与标记空间强相关的候选特征集合,并利用特征排斥损失函数对特征的重要度进行度量。(3)针对邻域模型的信息熵度量方法在一定程度上放大了邻域半径在特征选择上的依赖度问题,尝试将邻域信息熵模型,结合万有引力定律应用到多标记特征选择上,提出一种基于邻域的多标记数据引力模型的特征选择算法(Multi-label Feature Selection Algorithm Based on Neighborhood Data Gravity Model,FS-DGM)。利用万有引力与距离成反比这一性质,来减弱邻域半径(距离)对特征选择结果影响的依赖度。
其他文献
植物色彩作为植物极具观赏价值的部分,历来是园林景观设计者关注的重点,特别是近年来,叶色丰富、具有季相变化的彩叶树种,在营造优美的园林景观方面越来越得到设计者的青睐。
目的:研究熊果酸对人肺腺癌A549细胞的抑制作用及其自噬相关蛋白LC3、Beclin-1及P62表达的影响,为临床应用熊果酸改善非小细胞肺癌的治法提供实验依据。材料与方法:采用不同
我国的草原面积分布广泛,在维持生态环境平衡和保护生物多样性方面具有重要意义。草原作为内蒙古的生态主体,对维护全国的生态环境起着十分重要的作用。多年来草原蝗害在内蒙
目的:本研究采用Meta分析的方法,对近10年来国内外采用术中用雷替曲塞腹腔灌注化疗治疗有关结直肠恶性肿瘤文献进行分析,综合评价雷替曲塞治疗结直肠癌的安全性。方法:检索2019年3月前,发表于PubMed、Embase和Cochrane3个英文数据库以及中国知网、万方数据知识服务平台和中国生物医学文献数据库等中文数据库,获得所有关于结直肠癌术中行雷替曲塞腹腔灌注化疗的文献并进行分析,比较术中行雷替
目的研究MTAN及MTAN与EDTA联合应用对血链球菌、牙龈卟啉单胞菌、具核梭杆菌混合菌的抑制作用。方法在不同混合菌种菌悬液内加入不同浓度的MTAN溶液及MTAN+EDTA溶液,记录初始
目的:了解非医学类大学生慢性病相关知识、信念及行为现状;探索影响非医学类大学生慢病相关知信行的因素;通过对非医学类大学生慢性病相关的认知、信念和行为三个因素构建结
近年来,随着大数据和人工智能的迅速发展,标记学习成为重点研究领域之一。其中,多示例多标记学习(Multi-Instance Multi-Label Learning,MIML)作为一种新型的学习范式,拓展了多示例学习(Multi-Instance Learning,MIL)和多标记学习(Multi-Label Learning,MLL)。MIML对于现实世界中许多复杂和模糊对象具有更好的表示能力,
立场是作者进行态度表达、认知判断以及交流的表征,在学术写作中占据关键地位。作者立场由各种作者立场标记来实现,主要包括三种类型:知识性立场标记,态度性立场标记以及自我指称。已有研究表明不同的学科、不同体裁立场表征方式不同,自然科学和社会科学论文在作者立场表征方式方面存在差异。然而,不同学科的作者立场标记在何种维度,存在何种差异尚不清楚。为解决上述问题,本研究基于学术写作作者立场标记分析框架,对比了自
随着机器学习的发展目前有大量的机器学习算法被提出,人工神经网络(Artificial Neural Networks,ANN)就是其中的一个重点研究方向。单隐藏层神经网络又是ANN中发展最为完备使用范围最为广泛的一类算法。传统的神经网络算法例如BP神经网络(Back Propagation Neural Network)有着参数复杂,训练速度慢,对数据需求庞大的问题,而极限学习机(Extreme
本文为一篇交替传译实践报告。笔者于2018年8月下旬至9月下旬于某上市安保公司实习,并在公司举办的“国际安全安保培训”项目中担任课堂口译员。作者先后与三名教官合作,翻译服务贯穿课程始终。作者选取了一节主题为“反恐”的课程作为主要语料,对其中的难点加以分析,并给出更加完善的译文。本篇论文中,笔者主要从听力理解、表达准确和演讲者风格不同的三个方面进行研究,作者应用了案例分析法,分析作者在现场翻译的不足