【摘 要】
:
近年来,随着大数据相关技术的发展,不光数据维数在增加,计算量也呈指数倍增长。特征选择是解决该问题的方法之一。根据数据的来源,特征选择分为单视图特征选择与多视图特征选择,根据分类模型中是否使用标签,特征选择分为监督、半监督、无监督三种类型。由于多视图数据能够发挥各个视图的优势,因此收到了广泛关注。而有监督特征选择方法因标签的获取成本很高,因此无监督特征选择方法受到了广泛关注。但是目前的无监督多视图特
论文部分内容阅读
近年来,随着大数据相关技术的发展,不光数据维数在增加,计算量也呈指数倍增长。特征选择是解决该问题的方法之一。根据数据的来源,特征选择分为单视图特征选择与多视图特征选择,根据分类模型中是否使用标签,特征选择分为监督、半监督、无监督三种类型。由于多视图数据能够发挥各个视图的优势,因此收到了广泛关注。而有监督特征选择方法因标签的获取成本很高,因此无监督特征选择方法受到了广泛关注。但是目前的无监督多视图特征选择方法存在忽略不同视图特征间的关联性,算法鲁棒性低,计算成本高,数据噪声多、分类模型准确率低等问题,为了解决以上问题,本文进行了无监督多视图特征选择的研究,研究内容主要包括:首先,为了解决特征选择稳健性差的问题,本文通过自适应学习将损失函数引入到机器学习模型中,利用损失与难易之间的对偶关系对样本进行加权,这种加权格式可以使有关数据分析的模型更加稳健。自适应学习依靠预测标签信息自适应的更新Laplace权重图,更新后的权重图能够更精确的表达图像特征,提高特征选择的稳健性。其次,为了解决同类别特征之间关联性不强、算法鲁棒性低等问题,本文基于图正则化来解决上述问题。本文将高维数据表示成一个近邻图,将近邻图与正则化约束项相结合,能够更好的保护数据间隐藏的内在结构。图正则化能够利用数据的局部几何特性来使得同类别特征之间的联系更加密切,从而增加算法的鲁棒性。最后,为了解决特定视图中噪声对特征选择影响较大的问题,本文使用稀疏范数来减少噪声对特征选择的影响。L1/2正则化是一类非凸的优化问题,通过构造定义函数,利用迭代算法进行求解,使数据中的噪声得到降低、还原精度高。所以本文引入L1/2稀疏范数在降低噪声的同时提高分类模型的准确率。基于以上研究,本文提出一个优化算法来对目标函数进行求解。最后,在MSRC-v1数据集,Outdoor Scene数据集,Handwritten Numeral数据集,You Tube数据集上进行特征提取并基于提取的特征进行聚类,实验结果表明,提出的特征提取方法在标准化互信息(NMI)和聚类准确率(ACC)上优于其他方法。
其他文献
随着信息化与工业化的发展,物联网作为其中关键一环,得到了广泛的应用。射频识别(Radio Frequency Identification,RFID)技术是物联网的主要技术之一,已被广泛应用在各种场景中。主要被用来实现对物品信息的收集、自动识别、身份认证等。在一些RFID应用场景中,往往需要布设多个阅读器,以期覆盖整个监管区域。在多阅读器并存的环境中,如何防止阅读器之间的通信冲突或通信碰撞十分值得
闪存技术经历了几十年的发展,闪存单元的尺寸经历了明显地缩放,对于存储性能的要求越来越高,相应的器件模型的建立也面临着重要的挑战。POM分子闪存器件作为一种新型的闪存器件,利用POM分子作为闪存单元的浮栅代替传统的硅浮栅极,使得闪存单元可以在纳米范围内进一步缩放,这对于闪存行业的发展具有重要意义。模型参数提取,器件模型的电路级建模和相应的电路仿真研究,是器件研究过程必不可少的部分。模型参数的提取方法
智能驾驶技术是目前高新科技领域的重点研究对象,它对社会发展、经济建设和科技进步等都有着重要的影响。传统智能驾驶环境感知领域是通过图像传感器、激光传感器和雷达等多传感器信息融合感知环境信息,该方法存在传感器数量多、计算复杂和成本高等缺点,而利用视觉图像来进行道路静态目标的检测识别具有无可比拟的优势,通过一次视觉图像的获取可同时获得路面的多种目标信息。基于聚焦形貌恢复技术的原理,本文提出一种利用车载单
综采支运装备是综采工作面支护与推进的核心设备,实现综采支运装备协同推进是综采工作面协同推进的关键环节之一,对实现综采工作面无人化、透明化开采具有重要意义。由于连接综采支运装备的浮动系统的运动具有自由性、空间性的特点,使得刮板输送机无法被推移至既定位置,进而对其协同推进过程中的刮板输送机的直线度产生影响,最终影响整个综采工作面的协同推进。由此,对综采支运装备的浮动连接机构的空间运动进行建模与分析成为
对于大面积的自生林和野生林,需要有效地检测具有代表性的可燃物区域,进行针对性的火警监测。当前森林可燃物普查的有效手段是通过飞行器拍摄获取森林影像数据集,但获取的数据集庞大,需要从中选出具有代表性的可燃物区域进行监测,同时也会带来数据处理复杂的问题。从数据集中选择小部分代表性数据的问题可以称其为数据摘要问题,而数据摘要问题常通过传统子模集合覆盖方法来解决。数据集庞大造成的计算复杂则可通过引入流式算法
本课题是山西省研究生联合培养基地人才培养项目(2018JD09)“无人值守工作面液压支架电液控制系统的研制”的重要组成部分,它是针对井下无人值守工作面在实验室和监控中心如何再现的问题而提出的。课题以煤矿井下综采工作面液压支架电液控制系统为研究对象,将虚拟仿真技术应用于液压支架监控平台,基于实验室现有的无人值守工作面模拟实验系统,以智能化综采工作面液压支架动态仿真平台为目标,开发出一套液压支架远程控
挖掘机广泛应用于各种施工场合,在工程机械中占有十分重要的地位。挖掘机作业环境复杂多变,常伴有噪音、粉尘,一些场合甚至存在塌方、辐射等危险,挖掘机自主智能化作业已成为未来发展趋势。工作装置姿态信息是智能控制系统的重要参数,实时精准地获取姿态信息对自主智能化作业起着至关重要的作用。在挖掘机工作装置姿态测量方面,大部分是以电位计、关节角度编码器等接触式传感器来实现。近年来一些研究人员针对姿态测量中接触式
传统的肺癌诊断主要通过人工读片的方式,找到肺结节所在的位置并判断其良恶性,这对于医师的经验有着较高的要求,同时极大的工作量很有可能造成诊断疲劳,甚至造成漏诊或误诊,耽误患者的最佳治疗时期。计算机辅助诊断技术的出现,实现了肺结节的自动诊断,减轻了医生的工作量,也在一定程度上缓解了不同地区医疗水平差异的问题。但目前与肺癌相关的计算机辅助诊断技术大多数针对独立时期的肺部病灶影像,通常是对肺部影像进行肺结
互联网上存在海量形式异构的用户生成内容,包括公开点评网站、电子交易平台中用户针对某些服务或产品所发表的评价。通常,用户会通过多种形式分享他的消费体验,比如上传照片等图像数据,发表文字评论,在平台限定范围内给出评分。随着个性化推荐、用户画像、文本挖掘分析等研究的不断深入,这些体量庞大的用户反馈数据越来越成为其不可或缺的研究支撑。某种程度上,在线评论会影响甚至引导其他新用户的购物决策,从而与品牌信誉、
随着工业生产规模的不断扩大,工业生产过程变得愈发复杂,对于系统中一些关键参数的测量变得更为重要。传统的测量技术主要基于新型的过程测量仪表,以硬件形式实现过程参数的在线测量。但受限于过程机理、物理环境、传感器和仪器硬件特性等因素的影响,工业生产过程的某些关键参数难以通过硬件设备直接在线测量。软测量技术采用间接测量的思路,利用过程中易获取到的辅助数据信息建立相应的数学模型,实现对难测主导变量的估计。传