基于模型融合的问答社区回帖预测研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hualidewushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web 2.0时代到来,用户间的联系越来越紧密,问答社区是时代的产物,应时而生且备受青睐。随着用户量的增长,问题日益增多,导致信息过载,越来越多的问题没有及时得到回复甚至没人回复,社区用户需要在海量的问题中搜索自身感兴趣的问题,严重阻碍了社区发展。精准邀请下发问题可以很好地解决以上问题,而预测技术则决定了能否做到精准邀请。为此,本文展开了对问答社区回帖预测的研究。本文利用深度学习模型、树模型和集成学习融合方法实现对问答社区回帖预测的研究。首先预处理原始数据、分析数据和构建特征;针对深度学习模型DeepFM存在的不足改进模型,提出了Text SBi DeepFM模型,提升了模型预测效果;基于树模型LightGBM研究回帖预测;使用集成学习Stacking方法融合模型,进一步提升了预测效果;最后设计并实现了基于模型融合的问答社区回帖预测系统。具体内容如下:本文首先介绍了问答社区回帖预测的研究背景及意义,分析了点击率预测技术在国内外的研究现状。接着,概述相关理论知识,包括:特征工程、集成学习的Boosting和Stacking算法、深度学习中的深度神经网络(Deep Neural Networks,DNN)算法和Text CNN算法。然后,预处理原始数据并分析数据,了解数据分布情况,找出有区分度的特征,基于数据分析结果构建特征。之后,针对DeepFM模型的不足做出了改进,提出了Text SBi DeepFM模型。在DeepFM模型基础上,引入了SENET(Squeeze and Excitation Network)区分初始特征;引入Bilinear-Interaction构建交叉特征,丰富特征,输入DNN模型学习高阶特征组合,减轻了网络训练负担;引入Text CNN处理文本特征,增强文本特征的表达能力。通过全量特征数据集上的实验对比,验证了Text SBi DeepFM模型的预测效果比DeepFM模型更好。随后,训练LightGBM模型,通过递归特征消除法选择特征,使用贝叶斯优化对LightGBM模型参数调优,完成模型训练及预测。进一步地,使用集成学习Stacking方法来融合Text SBi DeepFM和调优后的LightGBM模型。其中,Text SBi DeepFM和LightGBM作为基学习器,朴素贝叶斯分类器作为元学习器,模型融合能够综合各个模型的优点,取长补短,进一步提升了预测效果。最后,分析问答社区回帖预测系统的需求,设计了预测系统的架构及系统模块,使用Python+Flask+Bootstrap+My SQL+Redis工具完成系统开发,并详细阐述了所有模块的实现过程并展示了预测系统的运行效果图。
其他文献
随着目前人们生活物质水平的日益提升,生活节奏也随之不断地加快,城市的交通运输能力已经成为了制约整个城市进步的重要原因之一。城轨车辆的制动系统性能对车辆能否在行驶过程中快速高效地停车起着决定性的作用,是城轨车辆安全的重要性能。然而随着目前城市轨道交通的高速发展,现阶段的正在运营的车辆数量的不断增加,因为制动系统故障所引起的行车安全问题也越来越频繁。所以对城轨车辆制动系统进行故障分析来提高行车安全及可
女性乳腺癌在2020年已经超过肺癌成为全球癌症发病率的第一大病因。在乳腺癌早期阶段正确诊断以及时获得治疗,可以极大的提高病人的存活率。因此,乳腺早期的正确诊断得到了广泛的关注。超声波成像由于其易于使用、体积小、非侵入方法性和低成本等特性,已经成为临床医师在早期筛选中检查乳腺组织良恶性的首选。同时,今年来超声造影使用也逐渐广泛。大多数临床诊断中,都是联合B性超声和超声造影作为主要的诊断方法。因此,本
当前社交媒体发展迅速,各种各样的信息时刻地被发布与转发。信息时代带来众多便利的同时,我们也被众多的谣言、虚假信息所包围着。谣言的广泛传播,容易对网络安全和社会稳定造成严重的威胁。如何从社交媒体广泛的、多模态的信息中有效识别出谣言成为目前的研究热点。而在检测研究中需要基于大量的数据集对算法模型进行训练,这一过程容易造成私有数据集或隐私数据的泄露,对社交媒体平台或用户的利益造成损害。本文基于深度学习方
轨道不平顺是轮轨系统的主要激扰源,是造成车体各种振动的主要原因,对列车运营的安全性、乘客乘坐的舒适性、养护维修的经济性等都有着巨大的影响。在我国高速铁路不断发展的大背景下,伴随着车速提升带来的高速度、客货共线带来的高密度等问题对轨道的平顺性提出了更高的要求。为此,对轨道的平顺性状态进行科学合理的评价就显得尤为重要。目前,我国针对线路养护维修工作所采用的主要评价方法仍是均值管理和峰值管理。均值管理针
学位
光子可以理解成量子化电磁场的单模激发态,量子化电磁场的模式6)中单个光子的能量可以通过频率与普朗克常数?表示为?。单光子可以理解成光子数的统计平均值为1与方差为零的单光子态。单光子探测技术在国防、国家安全以及量子通信等领域中扮演重要角色,是当下我国急需抢占的科技制高点,具有重要的研究意义。本文中的单光子探测主要面向可见光到近红外波段的弱光以及能量更低的微波频段的微波单光子。首先,对射频电路与系统的
我国高速列车运营速度目前最高达350 km/h,车辆噪声问题也随列车速度的提高愈发突出。由于受电弓几何结构复杂,在列车高速运行过程中会对气流产生扰动从而辐射气动噪声,同时脱落的漩涡撞击车体壁面在车体表面产生湍流脉动压力。此外,受电弓在弓网接触力和气动抬升力的共同作用下也会对车体产生力激励。上述多种激励经复杂的车顶结构和空气对车内噪声产生贡献。因此,相比客室中部以及普通转向架上方车厢,受电弓下方车厢
近年来,随着电商行业的蓬勃发展,越来越多的人关注O2O(Online To Offline)电子商务模式。优惠券作为O2O模式吸引顾客的一种重要营销手段,常被商家和电商平台所采用。然而,优惠券被发放后,无法预估用户是否会使用该优惠券,可能会造成资源的浪费等问题。只有通过分析用户的历史消费行为,提前判断该用户是否会使用优惠券,以此作为优惠券的发放依据,才能在减少浪费资源的同时提高营销能力。所以,对优
随着科技发展,社交网络已成为人们交友互动、信息交流的重要途径。社交用户间的社交关系蕴含着重要的商业价值,而社交网络关系预测能够及时有效地发现社交网络的演变规律,分析用户之间的潜在关系,解决大规模网络结构稀疏的问题。然而,社交网络由于其维度巨大、网络形态复杂等特点使传统学习算法难以处理,同时社交网络用户还面临着隐私泄露、恶意攻击等风险。因此,如何对社交网络用户的隐私进行保护,并实现高效地关系预测已成
随着我国利率市场化改革进程的不断推进,国内经济逐步由高速发展转变为稳定增长,逐步进入到经济“新常态”时代。商业银行在新形势下为了取得较好的规模经济效益,寻求新的利润突破口,纷纷展开了开发新的业务方向的探索,力求新增市场需求,提升自身综合竞争力水平,打开市场局面。商业银行的零售业务一直以来都是服务客户的落脚点,是商业银行间竞争的热点,是商业银行创造利润的一个主要来源,更是商业银行核心优势增强的出发点