基于稀疏张量回归的高维数据预测

来源 :西南大学 | 被引量 : 0次 | 上传用户:sky_fly_sk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能技术的发展,高维数据日益普遍,如图像、视频、社交网络关系和用户行为数据等,被广泛应用在特征预测、视频分类和推荐系统关系挖掘等各个领域。而传统的机器学习算法需要先对数据进行向量化或矩阵化处理,这通常会破坏高维数据携带的内部结构信息,并常常会带来过拟合的新问题。近年来,将张量形式的数据应用到经典的线性回归模型中引起了广泛关注,一方面,可以尽可能地保留数据的结构信息,达到更优的预测效果,另一方面,结合使用张量分解技术,可以有效简化模型并减少待估参数的数量。本文对于预测变量和响应变量均为任意阶张量数据的问题进行梳理研究,主要工作有以下三点:第一,对于频率学派视角下的稀疏张量正则回归问题,梳理了近年来提出的两种张量岭回归算法,分别为基于CP分解的张量岭回归和基于TT分解的张量岭回归,并在此基础上,提出了基于CP分解的张量Lasso回归算法。首先,通过假设张量回归系数具有低CP秩结构,并施加!惩罚项,构建张量Lasso回归算法;其次,在理论上对回归系数的求解进行推演,采用了广义交替方向乘子法进行求解;最后,在数据集上对三个回归算法进行对比分析,结论表明本文提出的基于CP分解的张量Lasso回归算法对标已有的两种张量岭回归算法在多项评价指标上均有一定幅度的提升,如在小样本下相关系数提升了14%。第二,对于贝叶斯学派下的张量回归问题,阐述了张量回归系数基于高斯分布的贝叶斯张量回归算法,并提出了回归系数基于拉普拉斯先验的贝叶斯张量回归算法。首先,为以回归系数为主的参数选定合适的先验分布;其次,推导各个参数的后验分布形式,使其后验分布具备可采样的现实性,使用MCMC方法中的吉布斯采样算法进行高效采样;最后,在数据集上考察了模型的表现,结论表明基于拉普拉斯分布的贝叶斯张量回归算法比现有的基于高斯分布的贝叶斯张量回归表现得更好,95%置信区间覆盖率均有1%-2%的提升。第三,将本文提出的张量回归算法应用在阿里天池所共享的飞猪平台用户行为数据集中,分别从用户特征、商品特征和时间维度出发,以三个视角为例对用户行为数据进行了建模预测分析,取得了较为理想的预测效果。
其他文献
2019年新型冠状病毒肺炎(COVID-19)席卷全球,人类的身体健康和生命财产安全受到了极大的挑战和威胁,给各国公共卫生体系带来了巨大压力,对日常生活和世界经济造成了毁灭性的影响,所以尽早发现新冠肺炎阳性病例,遏制疫情的进一步蔓延显得尤为重要。防治这一疾病的主要挑战是缺乏高效的检测方法,由于新冠肺炎与其他肺部感染疾病的相似性使其诊断困难,同时核酸检测所需RT-PCR试剂盒的可获得性和可负担性仍然
学位
随着大数据时代的发展,人们获取信息的方式日益多样,如何有效地处理形式多种多样、数据量巨大的不确定性信息,成为了当前研究的一个重要课题。粒计算是一种处理不确定性问题的有效办法,本文从粒计算的角度出发,建立新的粗糙集模型,结合证据理论,研究多源混合数据的信息融合方法。在文本的讨论中,首先基于分类型数据构建等价关系,将粗糙集与证据理论结合。利用相似函数对各信源间的相似性进行计算,并通过谱分解将信源划分为
学位
在过去的十多年中,神经网络由于存在分布式和大规模并行计算的特点,在模式识别、智能控制和信号处理等众多研究领域取得了重大进展。然而,当前大多数神经网络在工程应用中的性能表现较差,由于神经网络的突触权值是不变的,导致神经网络在性能不佳时难以调整突触权重以适应现实需要。忆阻器不仅存在优秀的生物突触模拟特性,而且还具有突触可变性,因此可以用忆阻器来模仿神经突触的作用,使工程中的神经网络表现出更加优越的性能
学位
从园艺疗法的概念出发,探讨了国外园艺疗法的发展进程、研究内容以及康复花园、芳香疗法、治疗绿地的研究现状,同时分析了当前国内薰衣草园艺疗法的发展动态,对国内校园景观中薰衣草园艺疗法的设计应用不足进行分析,并对未来研究重点与方向提出展望,以期对薰衣草园艺疗法及景观设计应用的研究有所启示。
期刊
当前,海量数据信息在每一个智能行业和业务领域发挥着关键作用。面对不断更新的海量复杂数据,选择合适的数据挖掘方法并从中获取所需要的有效信息,是我们目前面临且必须要解决的问题。众所周知,粗糙集理论可以实时处理动态数据的更新,是一种非常有效的数据挖掘方法。在信息系统中,当删除冗余属性和增加全新属性时,系统的粒结构也会随之发生变化,从而引起粗糙集的两个近似算子的更新。本文以直觉模糊信息系统为研究对象,基于
学位
随着信息技术的快速发展,具有海量、高维、动态、分布式等特征的大规模复杂数据不断涌现,如何从这些复杂的数据中获取高价值的信息显得异常重要。粗糙集作为一种处理不确定性、不精确性知识的重要工具,目前已经广泛应用于模式识别、特征提取、规则提取等领域。然而,传统的粗糙集模型要求数据是完备精确的,对于不完备、动态数据的处理具有一定的局限性。集值信息系统作为单值信息系统的重要扩展类型,是处理不完备、不确定数据的
学位
人工智能与教育的结合对于推动国家发展、建设创新型国家以及构建包含有交互式学习与智能学习的新型教育体系等方面起着至关重要的作用。而人工智能在教育领域的应用主要集中在提供个性化学习方案与改进教育评价模式这两个方面。提供个性化学习方案与改进教育评价模式都需要对学习过程中学生的状态进行监测。众多的学习状态中,认知负荷是否匹配是被广泛研究且极为重要的一组学习状态。监测学习者学习过程的认知负荷是否匹配,便于教
学位
心血管疾病目前已经成为威胁国民身体健康的首要致命疾病,发病人数逐年上升。心电信号是反映心脏活动的一种重要的生理信号,医生通过观察患者的心电图数据来对心血管疾病进行诊断。为了减轻人工检测的工作量,提高医生对心电图诊断的效率和准确率,及时保障病人的生命安全,围绕心电信号自动检测与诊断的研究具有很强的现实意义。本文深入研究了深度学习技术在心电信号检测与诊断的应用,利用双向长短期记忆网络(Bi-LSTM)
学位
<正>湛蓝的天空与赤金的阳光,搭配艳紫的薰衣草让人沉醉其中。但据记者了解,北京地区的气候环境并不适合大面积种植薰衣草,各大庄园的紫色花海也多以蓝花鼠尾草与柳叶马鞭草为主。北京不适合大面积种植薰衣草法国诗人罗曼·罗兰有一句名言:"法国人之所以浪漫,是因为他们有普罗旺斯",而薰衣草说是普罗旺斯的灵魂,一点也不为过。人们对于美好事物的向往古往今来始终如一,早在1963年我国就先后在北京、上海、西安、重庆
期刊
学位