快速稀疏多元逻辑回归与分布式并行化

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bgnjqw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,稀疏多元逻辑回归(Sparse Multinomial Logistic Regression,SMLR)因为具有在分类的同时嵌入特征选择的作用而被广泛应用于高光谱图像分类、多类物体识别、疾病诊断等领域。由于SMLR目标函数中含有?1正则项,导致无法直接求得解析解,因此通常采用迭代的方式对其进行求解。SMLR问题最早采用迭代重加权最小二乘法(Iterative Reweighted Least Squares,IRLS)进行求解,但其算法对特征维度和类别数较敏感。在处理高维数据集或者类别数较多的数据集时,IRLS算法具有较高的计算复杂度,因此人们对于采用更高级的优化算法求解SMLR的需求变得越来越迫切。为了提高串行求解SMLR的分类准确率和求解速度,本文基于交替方向乘子法(Alternating Direction Multiplier Method,ADMM),设计并提出了快速稀疏多元逻辑回归算法(Fast Sparse Multinomial Logistic Regression,FSMLR)。实验结果表明,FSMLR算法的分类准确率在多个数据集上均取得了最优,在运行时间上也远优于IRLS算法。考虑到目前SMLR问题的串行优化算法已经难以满足处理大规模数据所需的时间和内存要求,本文基于分布式凸优化问题,针对大规模样本的场景提出了基于样本划分的分布式SMLR算法(Sample Partitioning based Distributed SMLR,SP-SMLR);针对大规模特征的场景,提出了基于特征划分的分布式SMLR(Feature Partitioning based Distributed SMLR,FP-SMLR)算法。SP-SMLR算法和FP-SMLR算法利用了ADMM算法的可分解性,通过将SMLR的单一目标函数拆分为多个目标函数进行求解从而实现了任务并行化。另外,原始大规模数据集被以多种方式划分为多个子数据集,各任务基于子数据集进行优化,从而实现数据并行化,极大地降低了分布式环境中任务的数据通信成本。本文使用Spark分布式计算框架实现了SP-SMLR和FP-SMLR算法,并在多组真实的大规模数据集上进行了实验。大数据实验表明,本文提出的分布式并行化SMLR算法能够对大规模样本及特征进行扩展,能够以较快的速度进行求解并保持较高的求解精度。
其他文献
本文简单论述了《政府会计制度》全面实行后的一些重大变化和创新,构建了“财务会计和预算会计适度分离并相互衔接”的会计核算模式,不仅强化了财务会计功能,也改进了预算会
教师专业发展是现代化教育发展的要求,也是实施科教兴国战略的现实需要。文章从教师专业发展的基本内涵、教师专业发展的重要性及教师专业发展的对策等三个方面进行阐述。
中国原创图画书以独特的风格吸引着世界的目光,与世界各国文化交融碰撞,在创作思维上呈现新气象和新面貌。未来的原创图画书宝库会很大,大到能容纳和呈现各种想象形态,超越语
医院药品是保证医院能够正常开展医疗服务,为患者进行诊断和治疗的基础条件。在医院财务管理中,药品会计核算管理至关重要。对此,本文首先对药品会计的职能进行介绍,然后对医
作为能源消耗大国,矿山产业为我国能源开采提供了强有力的支撑。在新时期新的市场经济环境下,为了响应国家节能减排号召,实现矿山产业的转型升级,矿山企业的财务管理工作也亟
教育评价作为与教育基础理论、教育发展研究并列的教育科学研究三大课题之一,对教育活动具有直接的导向、激励和改进作用。我国正在进行新一轮基础教育课程改革,大力推进素质教
为了更好地保障船舶夜航安全,基于船舶夜航光环境的特殊性和船舶夜航的风险性,构建船舶夜航光环境证据理论评价模型。首先,建立以信号灯误导、眩光干扰、频闪污染、光导致疲
综述了可压缩流体中湍流流动的研究现状,重点针对快速大变形情况下湍流的特性进行论述。讨论了可压缩湍流扰动的三种模态和能量的转换与平衡关系,对快速畸变理论和可压缩湍流的
本文主要对高中生物教学中小组合作学习模式的运用进行研究,并分析了小组合作学习模式的教学特点。结果显示运用小组合作学习模式进行教学,不仅能够让学生通过资源的共享掌握
在全世界引起慢性疾病甚至死亡的主要诱因当中,高血压病是最为重要的因素之一。目前,对于顽固性高血压的患病率还没有比较精准的统计和分析,并且也没有较为统一的诊断标准与治疗