高维数据下改进Logistic回归模型及其应用研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:hy009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,信息技术的进步使数据获取的成本不断降低,海量数据不断涌现,数据的维度也不断增加.一般来说数据的维度越高,计算复杂度会越大,数据中的噪声与冗杂特征产生的负面影响也会越来越严重,并且数据量越多,模型的计算时间也会越长.因此,如何降低数据的维度,提高数据分类准确率和计算效率,已经成为了机器学习领域的重要问题.本文构建了基于随机梯度下降和随机投影的改进Logistic回归模型.模型主要由三个部分构成:第一个部分,从降低数据集维度大小的角度改进,在这部分中,主要对比分析了主成分分析和随机投影两种不同的降维方法,将它们分别和Logistic回归结合进行算例分析,选取计算速度更快的随机投影为降维方法;第二个部分,从降低数据集量大小的角度改进,该部分选取随机投影降维后的数据,分别应用在基于批量梯度下降和随机梯度下降的Logistic回归模型上,选取收敛速度相对更快的随机梯度下降为参数更新方法;第三个部分,在随机梯度下降基础上加入Lasso进一步筛选特征,对前两个部分优化组合,进一步改进Logistic回归模型的准确性.我们选取三个模拟数据集进行仿真实验,在验证改进模型的有效性后,将其应用于实际数据中.改进Logistic回归算法模型可以很好的提升计算效率和准确性,能够广泛应用于各个领域高维数据的分类研究,比如金融和图像等领域.在本文中,由于实际猫狗图像的数据集的维度较高,而且相比金融领域来说,数据更容易获得,因此我们选取猫狗图片为实验对象,并通过对猫狗图像对模型的应用,得到分类模型的准确率达到79.2%,同时在计算效率方面也有显著提升.从以上实验分析,我们从算法的准确性和计算效率可以得出结论:第一、随机投影在维度很高的数据集中,不仅可以保持分类精度还可以大大的降低模型训练时间,能够广泛应用在图像、文本等高维数据集;第二、本文组合优化得到的Logistic回归模型可以在降维基础上,进一步消除无用特征,尤其是对于大规模稀疏型特征,可以使模型预测结果更加准确.第三、本文使用了基于随机梯度下降的优化算法,对于大规模数据集来说,比传统的批量梯度下降方法的运算速度更快.
其他文献
短文本的情感分析(Sentiment Analysis Of Short Texts),是指对富含情感的简短文本的观点挖掘。短文本的情感分析作为自然语言处理(Nature Language Processing,NLP)领域的一
GX160CrMoV12钢具有高硬度高耐磨性的特点,广泛应用于模具制造和机械制造领域。然而,GX160CrMoV12钢晶界上分布着粗大网状共晶碳化物,使钢的强度和韧性明显降低。因此,需要改
在石油化工行业中,裂解气等中含有C2高经济价值组分,常规分离方法都有着各自的现实瓶颈,吸收-吸附耦合分离法是近几年来一种新的分离技术,具有很广阔的前景和开发潜力,本文主
制造业是我国国民经济发展的命脉,在我国的经济增长和产业结构升级中扮演着重要的角色。改革开放以来,在人口红利与制度红利双重作用下,我国制造业快速发展,在全球的地位不断
由于股票市场受多种不确定性因素的综合影响,股指序列通常具有高度的非平稳性、非线性,准确地对其进行预测是一项具有挑战性的难题。早些年,研究者大多使用单一的金融时间序
阿尔茨海默症(AD)是一种进行性神经退行性疾病,是老年人中引起痴呆的主要疾病。硒酸钠对三转基因AD模型小鼠(3?Tg-AD)的干预作用和机制,已有多篇文献报道。但它们均采用常规
双酚类物质是一类应用于环氧树脂、乙烯树脂、聚碳树脂、高性能树脂改性剂及阻燃剂中的添加剂,由于其性能良好和价格低廉而广泛应用于生产和生活用的产品中。研究表明,双酚类
随着现代工业的不断发展,中国提出“中国智造”,生产出拥有创造力与竞争力的商品,这对于工业机器人提出了极高的要求。在工业机器人中,减速器是核心部件,直接影响了工业机器
微合金化低合金耐磨钢作为一种能有效抵抗磨损的耐磨钢铁材料,被广泛应用于各类机械设备的生产制造。目前国内钢厂生产的微合金化低合金耐磨钢常出现性能不稳定的问题,鉴于此
H9N2亚型低致病性禽流感病毒(LPAIV)在世界各地广泛流行,与其他细菌的共感染尤其是与大肠杆菌的混合感染导致养禽业蒙受严重的经济损失。虽然H9N2病毒感染已被证明可促进细菌感染,但其机制尚不清楚。通过实验室前期研究,初步筛选了一些可能与细菌粘附相关的蛋白如TGF-β1、整合蛋白、皮层蛋白、钙粘蛋白、黏着斑蛋白、纤调蛋白等。其中TGF-β1作为一种免疫调节因子和促炎因子能够介导某些细菌粘附。目前