组变量选择在线学习

来源 :西北大学 | 被引量 : 0次 | 上传用户:guobin_tj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅速发展,高维数据及海量数据的采集、存储和使用在科学研究领域发挥了越来越重要的作用.高维数据通常具有以下几种特征:第一,高维数据本质具有稀疏性,同时有组结构,数据尽管具有较高的维数,但是可能只有一小部分维数的数据以组的形式对特征起作用;第二,高维数据在现实生活中常以动态产生,每时每刻都可能有新的数据流入数据集中;第三,高维数据会包含敏感信息,人们采集的大规模数据会包含大量的个人隐私.传统的机器学习算法在处理大规模的高维数据时十分低效,而在线学习是近年来人们高效利用此类数据的方法之一.与此同时,如何在使用此类数据的同时保护个体的隐私不被泄露也是值得关注的问题.基于此,本学位论文聚焦于在线组结构学习及其隐私保护的研究,具体地,包括以下两部分:(1)研究高维流式数据的在线组变量选择问题.提出了带Group Lasso惩罚的逻辑斯蒂回归在线估计方法,并给出了求解算法,我们称之为GFTPRL算法.理论方面,我们给出了算法的缺憾(regret)界,证明算法是有效的.实验结果表明,对于稀疏模型,我们提出的算法的预测分类准确率明显优于其他主流稀疏在线算法.(2)开展了差分隐私框架下的在线Group Lasso的研究.基于GFTPRL算法给出差分隐私的在线Group Lasso模型的求解算法—DP-GFTPRL算法,用来解决逻辑斯蒂回归二分类问题.根据差分隐私性质和在线学习理论证明了算法的期望缺憾界.最后通过实验证明了我们满足差分隐私的在线Group Lasso算法的可用性.
其他文献
国家官员外国刑事管辖豁免是指一国国家官员对外国的刑事管辖享有豁免权,此议题来源于国家主权平等原则,国家官员代表国家履行职能,国家之间相互平等,平等主体间无管辖权,因此代表国家行事的国家官员可以享有刑事管辖豁免权,此处的豁免是程序性的,并不免除国家官员的实体责任。国家官员外国刑事管辖豁免的例外是指在一些国家官员犯严重国际罪行时,其享有的豁免存在例外,存在例外的情形主要包括国家官员犯国际公约中规定的罪
近年来,全国大兴土地流转之风,对实现农业规模化和现代化意义非凡,而在土地流转方式中,土地承包经营权出租和转包是两种最主要和最为常见的形式。本文以内蒙古凉城县为研究对象,对该地区土地经营权出租与转包问题进行实证研究,具有一定的特殊性和代表性,颇有现实意义。凉城县处于华北和西北地区接壤带,缺少灌溉水源、自然条件较恶劣、气象灾害频发(尤其是旱灾)、农业发展比较落后,但该县是传统的农业大县,近几年农地出租
当代山水画随时代变革不断刷新,在表现题材、形式、语言等方面都有很大的拓展空间。本文依据对古代传统山水画的技法学习和“长安画派”艺术思想的指引,通过艺术创作抒发内心生活体会的情感表达。从对生活的感悟与写生艺术实践角度出发,对为什么以“陕南”作为我的创作题材,以及以怎样的艺术形式表现汉中一带自然风貌特色进行探索。基于对中国画传统理论与实践的学习,对艺术创作与生活的相互统一关系的理解。论述《汉水之春》系
近年来,人工智能技术发展迅速,不仅取得了显著成果,而且已经应用到人们的日常工作和生活中。因此,掌握人工智能的有关知识显得十分必要。通过引入和翻译国外人工智能领域的相关文本,可以帮助人们更好地了解人工智能的发展历史和未来趋势。本翻译实践的原文本为Stuart Russell(斯图尔特·罗素)所著Human Compatible:Artificial Intelligence and the Prob
随着互联网技术的快速发展,越来越多的在线服务出现在日常生活中.由于传统算法耗时长、内存占用大等特点,通常无法有效地处理在线问题.如何将传统机器学习算法转化为适应快速应答的在线学习算法受到广泛研究.于此同时,已收集的数据中通常包含如医疗信息、财务信息和社交信息等的个人敏感信息,如何快速提供服务的同时保证客户隐私不被泄漏同样值得研究.从这两点出发,本学位论文聚焦于研究在线Logistic回归模型的不同
在大数据环境下,由于计算机的存储,计算能力和安全隐私等问题,传统的统计估计方法可能不再可行,因此可以利用多机器的优势对数据集进行分布式统计推断与计算.在分布式环境下,为了降低计算复杂度,本文基于拟牛顿法――BFGS算法解决了相应的分布式算法设计与统计推断问题.具体地,包括以下两部分:(1)针对通信正常的分布式环境,在较低的通信成本下,建立了快速的一般分布式BFGS算法,其关键是将步长进行分布式近似
本文围绕韩国高敞高中的汉语课堂,以该校182名汉语学习者和4名汉语教师为调查对象,结合自己的实际教学实践,通过问卷调查和访谈等研究方法,从学校的课程设置、所选教材、在校汉语学习者和汉语教师这四个方面对该校的汉语教学情况进行了调查分析。希望本研究在促进该校汉语教学发展的同时,帮助赴韩汉语教师志愿者了解CPIK项目下的韩国高中的汉语教学情况。基于高敞高中的汉语教学现状,文中首先对韩国高中的汉语教学背景
秦腔被誉为梆子戏的鼻祖。秦腔传统剧目服饰也是秦腔的重要组成部分之一。数字化时代的到来,科学技术逐步渗透在我们的日常生活中,数字化展示技术与传统服饰文化有机融合也是近年来计算机图形学的热点之一。数字化技术已经为秦腔发展指路新径,但其中关于传统剧目服饰的展示较为狭窄,实体展示仍占主导地位。秦腔传统剧目的数字化展示便为传播秦腔文化提供了可借鉴的途径。本文主要探究秦腔传统剧目服饰的数字化展示,通过秦腔传统
诺奖得主石黑一雄是当代著名的日裔英籍作家,他以细腻入微的写作风格和普世的人文关怀感召读者,广泛地书写着各国人民共通的情感旨归。他的第五部长篇小说《我辈孤雏》于2000年首次出版,故事设定在二十世纪初的上海和英格兰。主人公克里斯托弗·班克斯从小在上海生活。然而父母失踪后,他不得已离开这座城市,回归母国。双亲难寻,因此他立志成为大侦探,以期实现找寻父母、伸张正义的人生使命。目前,关于该小说的研究集中在
链路预测是图模型及网络数据分析的研究热点之一,该方法通过分析已知的网络节点及其结构等相关信息,预测复杂网络中尚未产生连边的节点对之间产生连边的可能性大小.但在链路预测过程中所使用的节点(用户属性),连边(用户关系)等隐私信息的不当使用已引起人们关注.真实网络中蕴含的隐私数据可能会导致用户真实信息泄露,给用户个人及信息发布者带来负面影响甚至经济损失,造成非常严重的结果.本文聚焦于网络链路预测的隐私保