【摘 要】
:
随着信息技术的发展,大数据逐渐成为促进各行业发展的资源和动力。高维不完备数据是大数据的一种重要形式,在推荐系统、Web服务选择等领域十分常见。虽然高维不完备数据非常稀疏,但是其中蕴含了关于实体间关系的丰富知识,具有很高的研究价值。隐特征分析模型由于其良好的数据表征能力和卓越的计算效率,在高维不完备大数据分析中得到广泛的应用。然而,目前存在的隐特征分析模型都只使用单一的度量方式,如使用内积或距离来表
论文部分内容阅读
随着信息技术的发展,大数据逐渐成为促进各行业发展的资源和动力。高维不完备数据是大数据的一种重要形式,在推荐系统、Web服务选择等领域十分常见。虽然高维不完备数据非常稀疏,但是其中蕴含了关于实体间关系的丰富知识,具有很高的研究价值。隐特征分析模型由于其良好的数据表征能力和卓越的计算效率,在高维不完备大数据分析中得到广泛的应用。然而,目前存在的隐特征分析模型都只使用单一的度量方式,如使用内积或距离来表示实体间关系。由于不同度量空间具有不同的特性,基于单一度量方式的隐特征模型对高维不完备大数据的表征存在不足,从而导致预测精度上的损失。针对该问题,本文研究了内积空间和距离空间两种不同度量方式下的隐特征分析模型,对比了不同度量方式对表征结果的影响,用这两种度量方式再结合不同的范数度量来构造损失函数,提出了两种兼具不同度量空间和范数优点的集成模型,实现了对高维不完备大数据更好的表征。本文的主要研究内容如下:(1)以隐特征模型为基础,在内积空间和距离空间上实现了两种不同的双范数隐特征模型,并以此为基模型,设计了一个权重自适应的集成隐特征模型。双范数隐特征模型使用结合了L1和L2范数的损失函数,兼具了L1和L2范数的优点,可以达到更好的鲁棒性和稳定性。该集成模型采用了权重自适应的集成方法,该方法根据每一轮中基模型的训练误差计算集成权重,使得误差大的基模型的权重变小,误差小的基模型的权重变大,可以达到更好的集成效果。(2)以初始的隐特征分析模型为蓝本,本文通过组合两种度量空间(内积空间、距离空间)和三种范数(L1、L2和Smooth L1)得到六种不同度量方式的隐特征模型,在此基础上设计了一个以这六种不同的隐特征模型为基模型的集成模型,仍然采用和前一个模型相同的权重自适应策略。(3)在推荐系统、蛋白质网络、Web服务选择等不同领域的真实数据集上的实验表明,本文提出的两个集成模型可以在不完备大数据上达到更好的表征效果,与其他目前最先进的模型相比有更高的预测精度和计算效率。
其他文献
进入互联网时代以来,网络和通信技术发展迅速,使人们的生活更加便捷。生活中普遍使用数字图像进行信息传输,所以其在互联网中的传输规模越来越大。由于可能包含有大量的机密信息和个人隐私信息,在信息传输过程中一旦被他人截获将会造成严重的后果,因此数字图像的安全性问题也受到了人们的广泛关注。保护图像数据安全的一个重要方式即为图像加密。传统的文本信息加密不适用于图像加密,因为图像信息有其独特的特征,包括数据量多
随着现代化工业发展,锂离子电池在新能源领域中发挥着举足轻重的作用,废旧三元锂离子电池产量呈现出急剧增长的态势。在不影响生态平衡和人类健康的前提下,以资源化回收废旧锂电池将是我们面临的重要挑战。本文综合阐述了湿法、火法收、火法-湿法联用等回收废旧三元锂离子电池的常用方法,其中火法-湿法联用回收效率高、污染小、安全性高、经济成本较低,在工业化生产上具有很好的发展前景。
目的 应用老年综合评估技术(CGA)筛查高龄人群中肌少症的发病情况及其危险因素。方法 选取在江阴市人民医院医疗集团就诊的718例老年患者,根据年龄分为非高龄组(<80岁,288例)和高龄组(≥80岁,430例),观察2组人群的肌少症发病率。将高龄组患者进一步分为非肌少症组(222例)和肌少症组(208例),采用CGA进行全面评估,从一般情况、实验室检测指标、老年共病和老年综合征等方面比较2组的差异
深度神经网络凭借其高表达能力,近年来成为关注度最高的机器学习模型之一,并已在各个领域得到了广泛应用。但是,由于深度神经网络存在易受对抗样本干扰的问题,这使其在许多领域的应用可靠性受到挑战。为保护深度神经网络应用系统的安全,研究人员提出了一系列对抗样本防御方法。其中,基于重构差异的对抗样本检测方法拥有部署的灵活性,可用于实时防御,但缺少应对未知攻击的能力,并且抵御强扰动攻击的鲁棒性较差。是否拥有应对
中国房地产“高利润”时代已经成为过往,伴随房地产行业竞争的日益加剧,整个产业链条已经从粗放式管理向精细化管理转型,精细化管理下的成本管理是连通房地产公司全运营流程的专业管控措施。每一项业务推动背后都离不开成本的构筑与决策,在收入不变的前提下,通过搭建合理的成本管控体系实现企业利润最大化是成本管理的最终目标。多数房地产公司也都关注并不断探索房地产行业“薄利润”时代下的成本管控体系及模式,多数房企的成
低功耗有损网络(Low Power and Lossy Network,LLN)凭借低成本、低功耗、部署灵活等特点得到广泛应用,互联网工程任务组(The Internet Engineering Task Force,IETF)提出的低功耗有损网络路由协议(IPv6 Routing Protocol for LLN,RPL)进一步推动了LLN的发展。随着无线传感器设备的不断增加,LLN中节点的高密
当前,不仅仅是深圳,从全国各个城市来看,房地产政策调控方向为房住不炒、“稳地价、稳房价、稳预期”的基调。同时,自然资源部调整土拍规则集中供地,一年供地不能超过三次。在土地成本高涨、商品房限价的趋势下,住宅用地集中供应,再加上“三道红线”,不仅对房企资金要求更高,还考验着房企的成本管理能力。在日趋剧烈的竞争环境中,只有成本管理水平较高的企业才能够赢得优势市场地位,取得长久发展。本文的主要研究案例为H
超声图像广泛应用于心脏、肾脏、肺等器官的疾病诊断。为了提高医生诊断的效率,超声图像的智能化分割技术得到快速发展。超声图像分割是一种在超声图像中划分不同类别区域的技术,有利于帮助医生快速、精确地定位不同的组织器官、病灶区域等,并且提供对所关注区域的定量、定性分析。目前,基于卷积神经网络的医学图像分割模型分割心脏区域时,通常不会利用无标签超声图像数据,导致无标签超声图像的价值浪费;在基于编码器-解码器
为了研究微透镜阵列成像质量的影响因素,针对慢刀伺服加工和紫外(UV)光固化工艺制备的微透镜阵列,引入微透镜阵列镜片的误差,建立基于Zemax光学软件的光学微透镜阵列成像仿真模型,分析透镜单元的高度、曲率半径、入瞳直径等误差对微透镜阵列成像质量的影响。搭建光学测试平台对评价微透镜阵列成像性能的光学参数进行检测,包括各透镜单元的焦斑大小、位置误差及其焦距值,并利用点扩散函数(PSF)曲线的半峰全宽值对