凸优化在大规模机器学习中的应用

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wzpyccx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了凸优化理论在大规模机器学习中的应用,给出了基于Fenchel对偶理论的核Logistic回归并行分类算法(PDS)以及基于割平面理论的大间隔最近邻分类算法(LMNN_PCA)。KLR的决策结果含有概率输出,多分类推广能力好,然而单机下的KLR分类算法依赖于每个训练数据集,因此不能处理大规模数据。核Logistic回归并行分类算法主要采用了对偶分解的思想,即先将训练集分割成若干子集,集群上的客户机对每个子集进行独立训练,利用消息传递的机制,在每一次训练结束服务器主机再对各客户机传递的消息进行汇总,再对各客户机提供修正解的消息,迭代训练即可得到大规模问题的解。主要解决了如何将大规模问题分解为多个子问题以及子问题的求解问题。LMNN_PCA算法主要采用了割平面法,把大量约束条件的凸优化问题转化为小量约束条件的凸优化问题。本文主要进行了以下工作:(1)给出了基于Fenchel对偶理论的核Logistic回归并行算法的理论推导以及对于子问题的处理方法。利用Fenchel对偶理论将大规模凸优化求解问题转化为中小规模凸优化求解问题。(2)给出了基于Fenchel对偶分解原理的KLR分类并行算法的软件实现。先从功能图分析出软件中需要设计的类,然后给出了主程序的流程图(包括服务器端和客户端),紧接着,分析了软件实现中遇到的问题并给出了解决的方法。最后,还设计了一个拓扑结构网络,搭建实验平台,采用标准数据集进行实验。通过实验,得出KLR分类并行算法具有时间上的优越性。(3)提出了基于割平面法的大间隔最近邻分类算法(LMNN_CPA)并通过实验证明了算法的可行性与优越性。因为主问题的约束条件很多,所以采用割平面法来求解主凸优化问题,从而大大降低了约束条件的数量。
其他文献
现如今,计算机等计算设备以及互联网已然成为了这个时代的关键词。这类信息化产物的不断发展缩短了人与人之间的距离,拓展了人们的视野,同时也大大地便捷了人们的沟通。在这样的
乙烯裂解过程和油品调和过程是重要的基础石油化工过程,对其生产工艺的优化研究有助于提高生产质量和降低较高的工业成本。由于实际生产中企业需要综合考虑实现成本最小的同时
面对不断推陈出新的隐写技术以及互联网上不断涌现的数以亿计的多媒体文件,隐写分析技术需要从两个方面着手应对。第一,推出具有良好泛化能力的通用隐写分析算法,以应对从未
信息可视化(InfoVis)是文本数据挖掘的一项重要研究方向,也是人们从单一的信息数据中获取有用知识的一种重要途径。而数据挖掘正是从大量数据中提取潜在的,对使用者有价值意
近年来,现代工业过程的规模日趋大型化,过程的工艺也日趋复杂化。工业过程的大型化和复杂化使得系统面临的风险越来越大,系统发生故障的概率也越来越高。由于系统的高复杂化,使得
随着计算机技术、通信技术的快速发展,且日趋紧密地互相结合,作为数据处理的新兴技术——数据融合技术,在近10年中得到惊人发展,该技术已应用于诸多军事领域及民事领域。数据
目前的互联网流量中充斥着各种数据,其中一大部分是近十年兴起并迅速发展的对等网络(Peer-to-Peer)应用。因此对于P2P业务的流量控制和管理在网络管理中显得尤为重要。P2P流
视觉传感器网络中的视觉节点感知模型为有向感知模型,节点视野受限,因此我们部署的节点不应是静止的,一般节点分为如下三类:可移动,可旋转以及既可以移动又可以旋转。对于这
认知科学的研究表明,感知信息对自然语言习得有重要的辅助作用。由于机器不能独立地把词汇和感知世界进行关联,因此出现了Grounded语义学,即语言符号和感知符号相连接的研究
尘土是导致电接触故障的重要原因之一。尘土成分包含无机物和有机物两部分。研究尘土中各种成分对电接触的影响,对于选择合适的材料模拟尘土对电接触的影响具有重要意义。本课题分别以纤维和方解石两种尘土成分作为研究对象,分析尘土密度、正压力、尘土物理特性等因素造成电接触失效的机理。影响纤维对接触电阻可靠性的因素有纤维密度和正压力。静态接触电阻随正压力的增加下降幅度初始很大而后趋于平缓;静态接触电阻随密度增加呈