面向不完备和不平衡数据流的在线学习研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:cqjava
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,每天产生海量数据。这些数据时序到达,且伴有新的特征和缺失特征,随之带来特征空间的动态变化,属于典型的不完备数据流。当前,从动态生成、实时到达的数据流中获得有用信息、构建预测模型是数据挖掘领域的难点和热点问题。在线学习作为处理流数据的有效方式,可以实时处理数据实例,动态优化目标函数、更新预测模型,使模型适应数据变化。然而,现有方法要么只能处理固定特征空间或以特定模式变化的数据流、要么忽略了数据分布的动态变化以至于无法有效地解决空间不完备和类分布不平衡,且通过补全缺失特征或训练多个分类器的方式导致巨大的计算开销。基于以上问题,本研究的主要内容如下。首先,针对现有方法无法有效地处理不完备数据流,训练成本高等问题,提出了面向不完备和不平衡数据流的在线学习算法OLIDS(Online Learning for Incomplete and Imbalanced Data Streams)。OLIDS算法通过特征空间投影识别不同特征并提取特征携带的信息,然后利用特征空间的置信度对分类器进行重新加权以适应动态变化的特征空间同时避免特征重构,采用被动更新规则实时更新分类器,最后基于通用特征空间的相对不确定向量稀疏截断分类器以进一步提高模型的泛化性能。其次,针对不完备数据的在线学习算法忽略类分布不平衡导致模型泛化能力差的问题,通过使用代理函数最小化的方式对F-measure进行在线优化,并建立动态代价机制以提高模型在不平衡数据上的性能。此外,分析算法在线性可分和线性不可分情况下的累积损失上界,并推导算法在任意类别上的误分类边界。再次,通过实验验证并分析算法性能。利用14个不同领域的代表性数据集构建梯形数据流、特征演化流以及不完备和不平衡数据流场景,以对OLIDS算法与最先进的相关算法进行实验对比,并将F-measure、G-mean和运行时间作为评价指标以分析OLIDS及其对比算法在三种不同场景下的性能。最后,将OLIDS及其对比算法应用在真实的电影评论情感文本分类场景下,并分析实验结果,验证算法的实用性和有效性。
其他文献
恽寿平是在清代初期绘画史上有突出成就的画家,花鸟画和山水画皆擅,文学素养也造诣颇高,是“常州画派”的领头人,亦是清初六家之一。坚持以形写神,意在笔先的艺术理念,是其绘画上特别的风格。恽寿平开创耳目一新的没骨花卉画,对明末清初的画坛有着衰而复荣之功。和对后世的绘画有极大影响,是一位承上启下的画家。恽寿平主张“师造化”,吸取前人优秀的绘画理论和笔墨技巧,冲破传统绘画的程式,洗发新趣,脱落时径,创造出有
学位
当代工笔人物画作品由于绘画材料及观念的不同,因而在创作过程中并不刻意追求物象的客观呈现,也不单纯强调绘画语言及形式本身,而是更加注重内心世界的描绘与艺术思想的表达,同时通过平面性语言回归绘画的本体。当代工笔人物画的平面性表现体现在对平面空间进行压缩与分割,简化和概括造型使平面化的形象更强烈,同时色彩的表现力也得以释放。平面性语言为当代工笔人物画的艺术创作提供了更为丰富的表现形式,这使得艺术家们在创
学位
随着信息时代的发展,软件在人们的生活中承担越来越重要的角色,人们对软件的安全性提出了更高的要求。受限于开发和管理人员的经验,软件缺陷是不可避免的。准确高效的软件缺陷预测技术,能够让人们针对性地安排测试工作,保证软件的安全性。本文针对软件缺陷预测中的数据高维性和类不平衡问题进行研究,并针对性地提出了解决办法,主要研究内容如下:首先,针对数据高维性问题提出了一种基于卡方和遗传算法的特征选择算法。通过卡
学位
在陌生环境中导航与感知是家庭服务移动机器人实现服务任务的关键基础之一。视觉语义SLAM作为实现机器人导航与环境感知技术的实现,应用价值巨大。本文从为家庭服务机器人导航的应用方向出发,提出了一种基于RGB-D相机的视觉语义SLAM地图构建的方法,又考虑到机器人自身资源的局限性,结合边缘计算改良得出边缘视觉语义SLAM地图构建的方法。首先,提出了基于RGB-D图像的视觉语义SLAM地图构建算法。在视觉
学位
随着脑机接口技术的发展,传统的单人脑机接口系统的局限性也随之更加突显,单人脑机交互存在交互自然性较差、互动性不足,传统实验场景搭建成本较高、复用性较低。因此多人虚拟脑机交互的相关研究逐渐引起了研究人员的兴趣。针对上述问题本文将从构建多人虚拟脑机交互模型、实现多人脑机接口系统、多人竞争状态脑网络应用研究三个方面展开深入研究。首先,本研究针对需求和现状建立了多人虚拟脑机交互模型。该模型融合了脑机接口技
学位
我国的黄土高原地区除了有地理意义上的概念外,更有着文化上的概念。得天独厚的自然与文化特色成为艺术所要表现的对象。油画作为一门绘画语言通过对高原的描绘不断发掘其更为深刻的内涵,黄土高原作为中华农业文明的主要诞生地,与此相伴而生的乡土意识在油画中有着突出的显现,它不止是单纯的表现农村、农民以及相关事物的表面现象,而是以此为突破口从地域性的思考上升到对家国情怀和精神世界的关照,这使得乡土意识有了更为深刻
学位
入侵物种可通过多种渠道进行传播,若不及时采取防控政策导致物种继续扩散,会对生态系统造成威胁,所以对入侵物种进行分析是至关重要的。虽然目前对入侵物种研究具有一定的基础,但是对入侵物种数据通过可视化的形式进行可视分析,还存在一定局限性。因此,本课题构建全球入侵物种数据与可视分析技术相结合的方法,对入侵物种数据进行可视分析探索,将从以下几个方面进行研究。首先,针对全球入侵物种数据库数据复杂问题,通过Py
学位
在认知心理学和社会认知神经科学中,面孔感知和加工一直是研究者关注的重要方面。现有研究在利用面孔图片作为刺激材料时,是将眼睛和嘴部特征进行同时的正立或倒置,结果导致两方面的变化,一方面是眼睛和嘴这两个特征本身的变化,另一方面是特征方向一致性的变化,基本上,特征方向一致性的影响基本上不被探讨。本研究通过改变鼻子特征的方向,实现对特征方向一致性的操控,探究特征方向一致性是否会对中性及快乐、恐惧面孔的识别
学位
报纸
阿尔茨海默症(Alzheimer’s disease,AD)是一种在老年人中最为常见的进行性神经退行性疾病,该疾病会造成患者记忆、认知行为及社交障碍,妨碍其日常生活并最终危及生命。而迄今为止,人们对于AD的认识依旧较为局限,这对疾病的诊断与治疗造成了阻碍。近年来,许多研究尝试使用动态的网络分析方法对AD背后的异常脑机制做出探索。但是在大多数研究中使用的滑动窗方法以及共激活模式存在方法学上的缺陷。基
学位