基于用户信息的评论生成任务研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:huifentongxun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理(Natural Language Processing,NLP)和人工智能领域最复杂的任务之一就是自然语言生成。教会机器如何像人类一样进行交谈,自动生成连贯且易于理解的语言一直是学术界和行业研究的重要方向之一。近年来,学术界和行业研究人员发表的相关研究文章的数量空前增长。本文归纳了国内外自然语言生成的研究成果。本文对评论生成任务进行归纳总结,说明了评论生成在自然语言生成中的重要性并阐述了自然语言生成常用的性能指标。目前,评论生成任务的研究并没有充分利用输入的用户信息,所生成评论的多样性和个性化仍有不足。基于目前评论生成的问题,本文所做的工作如下:(1)当前的评论生成研究具有相对简单的输入信息,输出的评论差异过小,本文基于用户信息建立编码器解码器模型,在模型中引入注意力机制,捕捉用户与文章之间的共同关注点,模型输入既包括了用户的数字化特征信息,也包括用户评论关键词作为软约束;为了得到更有多样性的输出结果,采用改进的beam search搜索算法,通过添加惩罚项缓解重复性问题。(2)用户信息既包含数字化特征信息也包括文本序列的历史评论信息,当前评论生成更多关注简单的数字化特征,在生成内容个性化方面仍有不足。在研究了关键词软约束对评论生成的影响后,本文建立编码器解码器模型,关注用户历史评论信息,更加充分地利用用户信息,由于文本携带的信息多于数字,因此在个性化方面更优。此外,为了生成评论的多样性,在模型结构中加入门控记忆模块,动态表达用户个性从而增强多样性。(3)目前评论生成多是基于循环神经网络的编码器解码器模型,基于transformer预训练模型还很少研究。本文使用最新的GPT-2模型,GPT-2模型在文本生成任务中性能优于其他基于transformer的预训练模型。为了解决多样性问题,采用组合top-k与top-p解码使模型解码策略有一定的多样性,可重复生成。此外,模型采用warm up优化学习率并用Adam W加快收敛速度,并解决参数过拟合问题。综上所述,本文使用多种方法,在评论生成任务中,通过对模型结构解码策略等研究解决评论生成中的多样性与个性化问题,提高评论生成的性能。
其他文献
我国一直以来就提倡节能环保政策,蒸发冷却技术应用水蒸发吸热原理,顺应大自然自然规律,不使用氟利昂等对环境有一定污染的制冷剂,运行能耗低等优势,但室外空气参数对该技术影响较大,在应用时有着一定的局限性;传统蒸发冷却与机械制冷相结合的空调机组,其冷凝器部分都是采用风冷形式,而在本机组则采用的是板管型蒸发式冷凝器,可以使其换热效率更高,减少占地面积,节约水资源等。根据以上特点,提出了蒸发冷却(凝)空调机
学位
随着深度学习理论的飞速发展,其在多个领域都展现出不俗的成绩,不少学者将其引入地质勘探数据处理领域,但受地理、经济、设备等条件的限制,实际采集的地震数据资料往往存在数量少,质量差等问题。针对地震数据数量少的问题,本文出基于GAN(Generative Adversarial Networks)网络的地震数据集扩充算法,具体使用DCGAN(Deep Convolutional GAN)网络展开实践研究
学位
文本和图像属于两种不同模态的数据,从文本描述生成与文本描述语义一致的逼真图像涉及计算机视觉和自然语言处理两个领域,是一个跨模态任务,非常具有挑战性。由于在图像生成领域取得的巨大成功,生成对抗网络(Generative Adversarial Networks,GAN)成为文本到图像生成(Text to Image,T2I)任务的最佳解决方案。在过去几年中,T2I方法在视觉真实感、多样性和语义对齐方
学位
学位
近年来国内外对于甲苯氧化制苯甲酸反应器模块和精馏塔模块分离技术的研究已经相当成熟,但对于两个单元系统联调构成的反应—分离循环系统的研究却比较少,基于此背景本文针对甲苯氧化制苯甲酸反应—分离循环系统进行稳态模拟,并利用动态迭代算法求解,具有一定的理论价值和实际意义。首先,针对该研究课题,分别建立了反应器单元模块和精馏塔单元模块的机理模型。此外,针对两个单元模块进行联调构成循环回路,基于序贯模块法进行
学位
作为纺织、石油、机械制造等需大量使用压缩空气企业的主要产气设备,离心式空压机是这些企业的耗能大户。针对离心式空压机的节能问题,大多数研究者和设计者往往专注于空压设备的改良和空压系统本身的优化,却忽略了外部环境对空压系统能耗的影响。因此,本文着眼于空气状态参数对空压机运行情况的影响,以咸阳某纺织厂所用离心式空压机为研究对象,采用理论分析与实验测试相结合的方法,对空气状态参数与离心式空压机能耗的相关性
学位
本文以西安市作为研究区域,以收集到的近三年污染物浓度资料以及气象资料作为研究基础数据,研究西安市室外空气质量变化趋势,分析了气象因素与造成西安市污染天气的首要污染物之间的关系,新冠肺炎疫情期间首要污染物与气象因素的关系,建立了PM2.5、PM10、O3的多元线性回归预测模型和神经网络预测模型,以预测精度较高的模型作为理论基础设计了预测系统的用户使用界面。得出的主要结论如下:(1)西安市2017年-
学位
为了解决室内人体的热舒适性问题和室内空气品质和问题,人们提出了个性化送风的概念。随着社会的发展,人们对于环境品质的要求逐渐提高,个性化送风越来越得到人们的关注。当前关于个性化送风的研究大部分是针对空气品质方面的,关于解决人体热舒适方面的研究并未结合人体本身的热特性,本课题结合人体局部热特性,着重研究利用个性化送风解决人体局部热舒适的问题。首先,本文介绍了关于人体热舒适的评价指标,包括热感觉投票(T
学位
埋地油气管道容易受到腐蚀的侵害,当有地磁暴发生时,位于大地电导率分界面周围的油气管道的管地电位波动更剧烈,导致油气管道腐蚀加剧,所以找到该区域对于管道保护意义重大,油气管道穿过的大地电导率分界面周围区域即为标题中所述的危险区域。帕金森矢量能够反应大地横向电导率的变化,可以用作寻找油气管道所处易受地磁暴影响的危险区域的理论基础。本文针对这一目标,用ANSYS Maxwell建立带有大地电导率分界面的
学位
本文基于再生水作为循环冷却水系统中的补充水,针对循环冷却水系统存在的结垢及腐蚀问题,采用水溶液自由基聚合法,以烯丙基磺酸钠(SAS)、丙烯酸(AA)、2-丙烯酰胺-2-甲基丙磺酸(AMPS)作为反应单体、过硫酸铵(APS)为引发剂、异丙醇(IPA)为分子量调节剂,合成三元共聚物(SAS/AA/AMPS)。通过正交实验与矩阵分析法相结合的方法确定共聚物的最佳合成条件为:反应单体摩尔比n(SAS):n
学位