【摘 要】
:
特征表示是数据挖掘算法的基础,从原始数据中学习出高质量的特征有助于提高模型整体的性能和准确性,因此特征表示在数据挖掘过程中显得至关重要。由于特征通常是建立在原始数据上的特定表示,对于简单的数据,特征可以直接从原始数据中获得并转化成数值表达。随着技术的进步,涌现出大量的非数值类型复杂数据——符号序列数据,例如基因序列,顾客购物序列和web访问流序列等,此类数据无法按照简单数据的处理方式对特征进行表示
论文部分内容阅读
特征表示是数据挖掘算法的基础,从原始数据中学习出高质量的特征有助于提高模型整体的性能和准确性,因此特征表示在数据挖掘过程中显得至关重要。由于特征通常是建立在原始数据上的特定表示,对于简单的数据,特征可以直接从原始数据中获得并转化成数值表达。随着技术的进步,涌现出大量的非数值类型复杂数据——符号序列数据,例如基因序列,顾客购物序列和web访问流序列等,此类数据无法按照简单数据的处理方式对特征进行表示。因此,通过建立新的特征表示模型挖掘隐藏在序列中的符号分布特性和时空顺序关系具有十分重要的意义。符号序列与传统的数值型数据存在结构上的差异。符号序列由离散符号构成,无法直接使用数值型数据距离度量方法对其进行计算;符号序列元素之间存在一定的顺序关系,通过人工提取特征将丢失较多的信息。在数值型数据上建立的模型方法运用于符号序列时可能无法获得良好的效果,需要学习特殊的特征表示模型对符号序列进行挖掘。本文以潜在迪利克雷分配(Latent Dirichlet Allocation,LDA)主题模型为基础模型,以符号序列的特征表示为研究重点,提出新的主题表示模型用于符号序列的挖掘;同时针对大数据,本文研究了主题表示模型的分布式并行运算,具有重要理论意义和实际应用价值。本文主要的研究工作有:1.针对现有符号序列表示方法特征维度高、学习算法时间复杂度高等方面的不足,提出一种主题特征表示法,将符号序列转换为一组表示多个主题呈现度的概率向量。新方法基于文本挖掘中常用的LDA主题模型,视短序列元组为序列的浅层特征(词),继而利用LDA模型学习算法提取主题及其概率分布,作为序列的深层特征。在实际序列数据集上进行了实验,结果表明,新方法在降低特征维度的同时提高了表示模型的学习效率,在符号序列分类应用中可以取得较理想的分类精度。2.针对固定长度的子序列元组不能充分挖掘不同长度子序列结构特征的问题,本文提出一种符号序列变长子序列概率模型的主题表示方法以提高分类精度。根据符号序列的顺序特性,建立变长子序列的条件概率模型,学习出不同长度子序列的概率模型以及不同子序列长度的权重,结合主题模型,构建符号序列变长子序列概率模型的主题表示模型。在实际序列数据集进行实验,实验结果表明,新方法可以提高分类精度。3.为能够高效处理大规模的符号序列,本文将符号序列主题特征表示模型与Spark平台结合,利用并行计算对海量符号序列进行特征表示并进行分类。本文在LDA主题模型的基础上对模型进行改进设计从而适应分布式平台并行计算所需要的条件,然后在Spark平台上进行实验。实验结果表明,通过使用Spark分布式平台,可有效提高算法的运行效率满足对大规模数据的高效挖掘。
其他文献
处在一个信息互联互通的时代,信息安全的保护成为当今社会背景下一个炙手可热的话题。传统的身份识别验证方式,如钥匙、PIN码、ID卡等,识别率和安全性都比较低,已经远远不能满足人们当今生活的需求。生物特征识别技术是利用人体独有的“行为特征”或者“生理特征”而进行的识别技术,其隐蔽性能、防窃取以及安全性能方面远远好于传统识别方式。掌静脉识别技术是众多生物特征识别技术中起步较晚的一种识别技术,利用人体丰富
随着计算机技术、微电子技术、数字图像处理技术、数字视频压缩技术、网络通信技术以及神经网络技术的飞速发展视频监控系统的发展趋势正在向网络化、智能化、移动化转移,同时随着社会的发展对于无人值守的智能视频监控系统的需求量是在不断的增加,这类智能化的视频监控系统的设计目标就是为了把监控过程中的人工操作减少,不断的降低监控系统对于人工的依赖性,系统可以利用软件之间的操作来自动化的完成针对核心目标或者复杂的环
传统的多媒体成像设备,需要依据外界环境日夜交替地变化,进行红外截止滤镜(IR-CUT)的来回切换,才能够获取正常自然的彩色图像。若去掉镜头前的红外截止滤镜,则在光线充足的白天,成像设备会因红外光的串扰,导致获得的图像偏色,这种因红外光串扰引起的图像偏色,本文称之为四带图像。为了能够在没有红外截止滤镜的条件下依然可以获得正常的彩色图像,本文通过分析同场景下的三带图像与四带图像之间的偏色差异,并结合最
伴随着我国智慧城市建设不断推进,大规模的数字监控系统已经在城市生活管理中起到了重要作用。但在现实场景中,由于摄像头自身传感器限制或是由于图像采集设备与被摄目标距离较远等因素,造成采集到的人脸图像大多质量不佳:分辨率低、质量差,肉眼难以辨识。这类低质量人脸图像大幅度影响人脸相关任务的识别率和准确率。因而改善低分辨率人脸图像的视觉质量,研究一种高效、鲁棒的超分辨率算法具有重要的实际应用价值。为了有效解
随着马拉松运动在我国的快速发展,越来越多的马拉松爱好者参与到马拉松运动当中来。马拉松运动是一项比较耗费体力的运动,需要进行专门的训练,不能无视运动规律而盲目训练,否则会对自身健康造成损害。随着现代计算机技术的飞速发展,人们已开始寻求人工智能等现代计算机技术来构建定量化的体育运动辅助训练设备和系统,帮助训练者快捷地获取训练评估和指导。人体骨骼关键点检测技术可以获取图像中人体的一些重要关节的位置信息。
现代社会是信息技术快速发展的社会,国家极其重视信息技术与日常教学的深度融合.因此,现代信息技术正不断地渗透到日常教学中.与此同时,在课堂上使用的信息技术设备也在不断地推陈出新.在这样的社会背景下,交互式电子白板应运而生.与传统教学手段相比,交互式电子白板具有功能强大、资源丰富、操作简单等多种优势,因此它可以很好地提高教师的教学效率以及学生的学习兴趣和效率.鉴于此,交互式电子白板得到大多数小学数学教
地图上承载着大量信息,始终在地理学习中扮演着重要角色。时代在发展,地图也不断变化。交互地图教学系统将地图与信息技术融合,突破了传统地图的单一呈现方式,让学生们认识到地图的新功能。获取和分析图像信息是学生必须形成的地理能力,这也是会用图析图的表现,并利于区域认知等素养的培育。2017版地理新课程标准的颁布,对教师在常态教学中渗透新课程理念提出了要求,推动教师和学生学习行为的转变。因此高中地理教学中应
皮肤是身体的保护屏障,其结构若受到破坏,便形成创伤。创伤的成因非常多也非常复杂,例如火灾、辐射、高温烫伤等。创伤若未能及时得到修复,往往会给病人的生活造成不同程度的影响。在哺乳动物中,胶原蛋白是皮肤中最为丰富的蛋白质之一,对皮肤创面的修复起着至关重要的作用。然而,目前在临床上评估创面修复进程经常还依赖于医生多年的诊断经验进行肉眼观察,这种非定量的评估存在较大的主观性并可能产生较大的误差。对胶原微观
物联网发展已经上升到国家战略,移动群智感知作为一种全新的物联网感知模式,即通过大量具备感知能力的移动智能感知终端协同完成某一智慧型泛在深度社会感知任务,得到迅速发展,为泛在深度社会感知提供全新的信息服务模式。然而,感知用户在感知任务执行过程中,面临着各种各样的用户身份和数据隐私泄露风险,严重危害感知用户身份信息和数据的安全。因此,如何保护感知用户在任务执行过程中的身份和数据隐私信息,是当前科研人员
近百年来,二维显示设备的发展日新月异,到现在为止已经有了严谨的体系和丰富的种类,各项技术也已经很成熟了,但是这也导致了二维显示设备的发展空间也愈发的小了,而目前还不算成熟的三维显示技术,受到的关注却已经越来越多了。如今这个科技发展迅速的时代,许多方法、样式各不相同的新型三维显示设备开始出现,但由于还处于初始阶段,受到了类似于超高分辨率空间光调制器和超高速信息处理系统等各项技术产品的限制,当前的三维