基于增量学习的多标签数据流分类算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sunrain0428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,许多应用场景中产生了越来越多的数据,这些数据大多以数据流的形式存在。例如电商时时刻刻产生的交易信息、网站每天生成的日志数据等等。从这些场景中的数据流中挖掘其中蕴含的有效信息也成为了一个热门的研究方向。在现实的很多应用场景中,数据流中的每个样本包含了多个标签。例如在一个在线网页新闻分类任务中,一篇网页新闻会包含了多个新闻主题(经济、政治、军事、商业等等)。在线的视频分类任务中,一段视频可能被打上多个标签(灾难、海洋、科幻等等)。因此,针对多标签数据流分类算法的研究是很有现实意义的。本文面向多标签数据流分类任务的主要工作如下:1.针对数据流环境下分类算法无法获得所有训练数据的问题,本文将增量学习思想应用到多标签数据流分类算法中。本文在对传统的增量朴素贝叶斯算法进行改进的基础上,针对现有的增量朴素贝叶斯算法未充分利用初始训练阶段中的实例特征信息的问题,本文利用KMeans算法得到的簇心集合保存初始学习阶段中的实例代表性信息,提出融入了 KMeans算法的增量朴素贝叶斯分类算法IL-KNB。在多标签标准数据集的实验表明了 IL-KNB算法的有效性。2.针对数据流中普遍存在的概念漂移问题,为了避免分类算法在遇到概念漂移时性能遭遇大幅下滑,本文在多标签数据流分类算法中并行的主动去检测概念漂移,从概念漂移的诱因与影响模型分类效果的角度出发,提出了双层概念漂移检测算法。该算法分别从数据层面和模型层面进行概念漂移检测,并针对这两种不同类型的概念漂移采用了不同的处理策略。3.为了提高多标签数据流模型分类性能,本文将数据流建模成基于数据块的集成学习问题,提出了多标签数据流分类算法ILMLSC。ILMLSC把IL-KNB引入作为基分类器,当最新的数据块到来时,对于先前训练的IL-KNB基分类器进行增量学习。针对基于数据块的集成学习的基分类器淘汰的时候会丢失有用信息的问题,ILMLSC引入了基于信息池的模型选择与更新机制。有些基分类器在遇到概念漂移时,在最新的数据块性能表现不好,现有的一些方法面对这种情况是直接淘汰该基分类器。ILMLSC中的信息池机制在遇到某个基分类器被当前的集成模型淘汰时,不是永久丢除,而是放到信息池中,并根据当前集成模型的基分类器与信息池分类器在最新数据块上的性能表现,进行当前集成模型的基分类器与信息池分类器的动态替换。在标准数据集上的实验表明了 IL MLSC算法的有效性。
其他文献
匾联艺术是中国文化的特殊载体之一,是中华民族特有的艺术典范。匾联在我国古代建筑具有画龙点睛的作用,匾联既有书法艺术的韵味,又有文学的点明主旨;既有托物言志的文学性能,又有点染美化建筑的外在环境。本文通过文献整理和实地考察,以王家大院为背景,作为曾经的名门望族之所居,留下了大量的文人墨迹,其中匾联艺术起到了“画龙点睛”的作用,是王家大院特有的艺术珍宝,楹联艺术蕴含着浓厚的书香气息,将书法艺术展现的淋
学位
报纸
视频目标跟踪任务是使用第一帧中已经标记的目标区域信息,自动化地预测后续帧中的目标区域信息,这些信息包括了目标区域的位置和大小。近年来,随着计算机视觉技术的不断发展和高性能便携式设备的普及,目标跟踪技术在诸如视频直播、虚拟现实、交通监控等领域发挥了重要作用。不过,在诸如遮挡、光照变化、快速运动等复杂条件下,目标跟踪的效果仍有待提升。同时,随着跟踪技术的应用愈加广泛,如何在诸如海上船只监控、道路交通监
学位
乡村旅游地是一个复杂的“自然—社会—文化—生态”地域综合体,它在促进当地经济发展的同时也给当地自然生态环境带来一系列负面影响,造成环境质量的下降。同时,乡村旅游发展过程中涉及多个利益相关者,如政府、企业、经营户、游等客,各利益相关者扮演的角色不同,对旅游发展的需求也不同。而旅游生态补偿是一种市场化的补偿手段,它能够在相关利益者之间建立起一种制约机制,也能够弥补生态保护过程中的财政缺口,最终实现旅游
学位
目前,神经网络被广泛用于图像数据分析领域。神经网络通常规模较大,运行时占用大量计算资源,难以在内存和算力受限的移动端设备运行。然而在移动端使用神经网络的方法用于图像数据分析的需求日益旺盛。轻量级网络架构研究致力于在保持网络预测性能的同时,减小网络模型的规模和计算量,使得神经网络模型可以在移动端设备上运行。基于此,本文分别从低层内容恢复、高层语义理解两类图像数据分析任务出发,研究如何将轻量级神经网络
学位
<正>在放假在家的日子里,我认真读完了日本作家、联合国儿童基金会亲善代表大使黑柳彻子所著的《窗边的小豆豆》,并深有感触。这本书讲述了作者上小学时的真实故事:小豆豆因淘气被学校退学之后,来到了巴学园。小林校长却常常对小豆豆说:"你真是一个好孩子呀!"在小林校长的爱护和引导下,一般人眼里"怪怪"的小豆豆逐渐变成了一个大家都能接受的孩子,并奠定了她一生的基础。
期刊
依法治国是国家治理体系和治理能力的重要支撑,是检验国家治理实际效果的重要标准,是促进国家治理现代化的必然趋势。新时代法治文化建设不仅依赖法律的权威,更依赖法治文化的支撑。从实化价值、优化价值、淳化价值三个层次,探讨国家治理现代化下法治文化建设的三重价值意蕴,为推进国家治理体系和治理能力现代化提供现实借鉴。
期刊
学位
在多标签分类的框架下,每个样本可以被赋予不止一个标签,直接导致样本的可能标签集合的数目巨大,给多标签分类中分类器的学习带来挑战。已有的研究表明,有效地挖掘并利用标签之间的关系可以促进多标签分类的学习过程,提升分类器的预测性能。但是,关于标签关系的挖掘和利用又不得不面临这样的两个问题:1)如何挖掘出标签之间的关系;2)如何恰当地利用标签之间的关系。此外,所有样本并不总是满足相同的标签关系,不同的样本
学位
流行语的更迭是社会发展的缩影。本研究以米歇尔·福柯的知识考古学路径为指引,重访2020年年度网络流行语“打工人”的概念源头,勾勒从新中国成立初期的“工人”概念、改革开放之后的“打工仔”概念,逐步行走到当下互联网空间中的“打工人”流行概念的话语实践历程。“工人”“打工仔”“打工人”在中国社会发展的不同阶段上、经由不同的媒介文本发展成社会流行语,本研究亦希望以上述概念的行走轨迹为棱镜,思考媒介技术变革
学位