基于深度神经网络因子机的首次触达时间模型(DeepFM-FHT_Model)

来源 :深圳大学 | 被引量 : 0次 | 上传用户:kongduiyue2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代人们每天面临着巨量的消息评论、长短视频、新闻资讯,电商产品等信息,每个个体不仅是数据的消费者,同时又是数据的产生者。互联网的时代,作为用户的我们每天都产生了大量的数据,包括购物、聊天、活跃于各社区发动态、写文章、浏览视频等等。我国的网民规模越来越大,互联网普及率越来越高,各项基础设施的建设也不断发展。随着产业互联网的发展,大数据已经渗透到多个行业和领域,变成一个越来越重要的生产要素。所以对于数据的运用和挖掘变得至关重要。当前,在推荐营销场景中,较多为人使用的仍旧是Logistic Regression及Xgboost这类模型,而这类模型在处理数据方面会面临两个弊端。其一是对于时间的处理,其二是对于删失数据的使用。逻辑回归模型和树模型等对于时间的学习较为不恰当,容易造成过拟合和数据泄露等问题,而另一方面,当面对删失数据时,更倾向于认为这部分数据信息不完全而选择舍弃或将其简单的当成“0”,而这在一些特殊的场景,样本量本身较少时,会对最终的模型预测效果和泛化能力带来一个极大的挑战。生存分析类模型正好能避开上述两个弊端,生存分析最初应用于医疗领域,在处理删失数据以及对时间变量的处理上已经积累了很多经验,相较于LR模型,生存分析类模型视时间和事件标志均为因变量。在生存分析领域,使用最广泛的应该是Cox比例风险模型,但该模型有着过强的假设,其一,必须满足各个变量(因素)的作用不随时间改变,即时间在变,但是对应的风险仍旧保持不变的比例关系;其二,对数风险比需与协变量(各种生存因素)保持线性关系。本文在学习首次触达时间与协变量之间的关系时引入了深度学习的知识,不对潜在随机过程做预定的假设,加入了较为成熟的Deep FM框架以对协变量进行深度的学习,并对损失函数进行改造,融入了FHT与事件时间关系的似然函数、区分度指标和拟合优度指标这三个因素,从而加速模型的收敛和提高模型的准确度。在实证分析上,本篇论文首先将新提出的方法作用于一个生物医疗数据集和一个模拟数据集上,以C-index作为评估指标,与其它几种常见的生存分析模型对比,结果表明新提出的方法效果更佳。除此之外,本文还将新方法作用于一个电商交易数据集,通过特征构建和特征筛选,建模对比分析发现本文提出的方法从效果上优于逻辑回归和Xgboost。并且,在增加时间这一特征后,Xgboost的表现较为过拟合,该结果表明本论文提出的方法能够用于推荐营销领域,特别是在着重关注时间的场景,比如预测用户何时流失、用户何时违约等。在本文的最后,对整体进行了总结,并对未来的研究方向进行了构思,对可应用的场景和方向进行了展望。
其他文献
在大数据时代,互联网上存在大量的包含投资者情感评论的文本数据,如何准确有效地挖掘这些文本的情感信息已成为行为金融领域的一个研究热点。然而,投资者对于股市观点的文本大多具有口语化、表达比较随意、数据冗余等特点,这给投资者情绪量化分析带来巨大的挑战。因此,本文选取东方财富网股吧中的上证指数评论作为研究对象,基于word2vec构建股市情感词典和基于BERT的方法进行投资者情感的量化分析研究。首先,使用
学位
保险作为转移风险的一种手段,是减轻未来可能出现的风险损失的有效方式,因此在经济的发展中它起到了重要的保障作用.但是随着社会经济的不断发展以及社会活动越来越多样化,未来的风险受到许多内外部因素的共同影响,多种因素带来的风险相互交织给保险行业带来了新的挑战.面对复杂的市场环境,保险公司如何有效地对风险进行度量和控制是目前急需解决的问题.对风险进行量化分析时,需要建立相应的数学模型和选取合适的风险度量指
学位
在对带有测量误差的数据进行回归建模时,如果直接分析观测到的数据,忽略测量误差,那么估计结果往往是有偏甚至不相合的。因此,对于这类问题,我们要用相应的测量误差模型来处理。测量误差模型主要有两种:第一种是具有可加结构的一些测量误差模型;第二种是具有相乘结构的一些测量误差模型,我们称之为扭曲测量误差模型。在本文中,我们主要讨论数据带扭曲测量误差条件下的乘积回归模型。本文研究数据带扭曲测量误差条件下乘积回
学位
随着信息技术的快速发展,我们面临越来越多的高维数据分析问题.在高维数据分析中,如果模型中引入过多的无关变量,不仅会影响模型的解释性,还会导致模型的预测效果变差.Lasso方法是变量选择中最流行的方法之一,通过引入L1惩罚项,对估计系数进行一定的压缩,将不重要的变量系数估计值压缩至0,从而达到变量选择的效果.后续提出的非凸惩罚回归方法,SCAD方法和MCP方法,近年来在变量选择中也引起了广泛的关注.
学位
科技创新在经济发展中发挥着重要作用,在不断升级的中美贸易摩擦中,科技领域的争端时有发生。虽然我国已经挤入前20个最具创新的经济体,但我国的科技创新能力的地区差异却非常大,技术创新是经济发展的重要动力,科技创新能力差异过大不利于区域经济协调发展。因此,我们需要对区域科技创新能力进行测算,分析各区域的发展情况及其影响因素,以便更好更快地发展经济。这些问题前人虽有研究,但一般没有考虑地区之间相互的影响及
学位
利用micro-RNA-seq或scRNA-seq数据来诊断疾病类型是医学研究的一种有效方法,针对以上测序数据,现已有泊松线性判别分析(PLDA)、负二项线性判别分析(NBLDA)和零膨胀泊松逻辑判别分析(ZIPLDA)等统计分类方法。由于基因表达数量成千上万,而样本只有几十个,在大量的基因里,并不是所有的基因都对分类起作用,基因表达数据中存在着大量的冗余和不相关基因。处理基因表达数据的一种典型方
学位
涂鸦艺术源于社群底层,大多时候,上层社会并不在意社会底层的发出什么样声音,因为处于社会边缘的他们没有话语权,无人关心。而这相对“自由”的环境孕育出了璀璨的珍珠----涂鸦文化。很难想象,源于布鲁克斯贫民窟的草根文化,在30年后会成为文化主流,席卷全球,写进艺术史,滋养着无数热爱艺术的人们。当街涂鸦的青少年们可能也想不到,自己当年无意识行为在被当今各大学者孜孜不倦的剖析研究。而涂鸦艺术的源起与社会底
学位
爱情电影中不乏“雨中戏”,作者在影视创作中通常加入雨场景,使影片在叙事过程中强化情感的升华,烘托出不一样的人物性格和戏剧冲突,它具有强烈的真实感和代入感。因此,雨场景是电影营造氛围的一种重要手段。本文以近代爱情电影为案例,以电影中的雨场景为研究对象,通过对李安导演的电影《理智与情感》和行定勋导演的电影《在世界中心呼唤爱》中雨场景的故事情节与视听语言分析,再从电影叙事的角度把两部电影中的雨场景进行比
学位
公共空间的建设如火如荼,为使公共空间与人们的情感体验紧密相连,创造更有生命力的公共空间,本文将以叙事学的视野来探讨有情节,有故事的空间该如何营造。“墙”作为空间的主要构件,在公共空间的叙事过程中承担了怎样的角色,有着怎样的影响,“墙”怎样参与对公共空间的叙事性营造将是本文着重探讨的问题。本文采用实地调研法,调查多个公共场域中的“墙”的情况,进行分类记录和分析概况。结合案例分析法,对其进行归纳和演绎
学位
《海上画梦录》是上世纪奥地利漫画家希夫对上海市井生活的描绘合集,其中描绘的上至达官贵族下至平民百姓的形象都鲜活生动,这对漫画中市井人物的刻画有着重要的启示作用,也为本文对塑造漫画市井人物的应用研究提供宝贵的素材。本文试图以个案研究的形式归纳漫画人物的塑造方法,并以创作者的视角挖掘多种观察市井人物的角度,从市井人物这一切入点探索漫画中刻画人物形象的方法,达到将这些表现手法升华为创作理论的目标。文章主
学位