基于维度分组的多样化用户评论生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangjiakou00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据到文本生成,即将结构化的数据进行概括抽象,生成能够满足人类阅读需求的文本,生成的文本应当符合基本的语法结构,流畅通顺,语义表达清晰准确。传统的模块化的生成框架将数据到文本生成任务显式的划分为内容规划、句子规划、文本实现三个模块,串联的模块之间存在着误差累积的现象,并且模块中针对特定领域的任务设计了大量的人工设计的规则,导致文本生成框架受限于特定领域,不具有泛用性。基于深度学习的数据到文本生成模型能够跨领域应用,生成的文本质量较高,但是缺乏可解释性,现有的方法仍然不擅长生成连贯的长文本,生成的文本缺乏多样性,不够丰富。本文通过对传统方法和深度学习方法的进行分析比较,综合二者的优点,在此基础上设计了一种能够生成多样化长文本的模型,本文的主要研究内容分为以下三部分:首先,构建数据到文本生成数据集,收集来自电商领域专业人员撰写的高质量评价文案以及产品结构化的参数,通过文本匹配的方式对数据进行重新排列和分组,将长文本拆解成多个短句,通过对数据的预处理和修正,为后续生成多样化长文本任务供高质量的数据基础。其次,通过设计基于维度分组的文本生成模型,我们将传统的生成框架与深度学习的方法相结合,使用神经网络方法实现维度分组的过程,捕捉分组之间的依赖性,借此高子句之间的连贯性,该过程等同于传统框架中的内容规划和句子规划。将整个文本生成任务分割成若干子任务,可以有效的对结构化数据建模,从而生成连贯的高质量用户评价文本。最后,我们出基于条件变分自编码器的分层生成模型,该模型是在上述分组规划模型的基础上进行改进,目标是升文本生成过程中的多样性。通过将隐变量分别引入宏观的分组规划层面和微观的文本实现层面,可以有效的为潜在的多样性进行建模。文本解码器采用了注意力机制,目的是来解决长文本生成过程中上下文依赖消失的现象。除此之外,设计了词袋结构和KL退火算法,进一步升了模型生成文本的多样性。通过对实验结果的对比和分析,表明模型能够生成高质量的多样化长文本。
其他文献
随着信息技术和人工智能的迅速发展,智能化微震定位和成像技术被广泛应用于火山、煤矿、油田等众多地区。近年来,随着我国煤矿开采深度的增加和开采强度的提高,大能量矿震事件频发,造成大量人力物力的损失。因此,精准有效的微震定位和成像方法是煤矿监测领域研究的热点问题。微震定位和成像技术依赖于微震发生时,微震源发出能量波信号的监测数据。受地下介质速度结构异构性影响,能量波信号大多不沿直线传播。同时,受背景噪声
学位
社会经济的发展极大地改善了人民的生活,人民群众对物质文化生活的美好愿景不断增强。同时,人类已步入大数据时代,如何从海量数据中挑选出用户感兴趣的信息并将其推荐给用户,已成为商家和用户共同关注的焦点。因此,个性化推荐系统应运而生。用户评论蕴含了丰富的情感信息,传统推荐方法对此考虑较少。一些研究虽引入文本处理方法,但也仅是对用户评论这种单一文本进行处理,并且无法根据用户偏好对评论进行细粒度的情感分类,这
学位
随着技术的不断发展,科技在不断改变人们的生活方式,尤其是在医疗领域,人工智能技术的加入,提高了医生工作效率的同时,还可以时刻监测患者的健康信息,智慧医疗逐渐走进我们生活的方方面面。在这些技术的背后,离不开相关数据的支持,而文本数据是医学领域最常见的表现形式,对医疗文本的知识抽取以及数据的规范化是技术发展的基础,同时对推动医疗健康的发展具有重要意义。本课题主要研究面向医疗文本的嵌套实体抽取和实体标准
学位
随着计算机图形学的飞速发展,由于具有更贴近真实的视觉效果,三维几何模型在各个领域获得了广泛的应用。因此,作为计算机图形学的新兴分支学科,数字几何处理也逐步进入人们的视野。而曲面参数化技术作为数字几何处理领域的热点与难点,也逐渐深入社会生产生活的各个方面。由于三角网格更能展现三维模型的细节,所以本文以三角网格数据作为基础,针对现有算法存在的非线性,算法复杂度较高等问题,分别对0亏格的封闭网格以及带孔
学位
近年来,随着互联网的快速发展,信息的爆炸性增长使人们为做出合理的选择需要投入更多的时间和精力,用户如何能够快速高效地在海量数据中找到所需要的信息成为当今时代亟待解决的一大难题。个性化推荐能够通过分析用户的历史数据获取用户偏好从而进行信息的推送。因此,个性化推荐的广泛应用很大程度上缓解了信息过载带来的问题。传统的推荐算法仅对用户与项目之间的静态关系进行建模,忽略了用户在现实生活中兴趣会随着时间发生变
学位
学位
膝关节炎这类病症严重影响到患者的生活,为患者家庭带来沉重的经济负担。这类疾病存在以下特性:中老年群体发病率高,影响人群广,属于慢性可致残性疾病。由于该类疾病临床表现相似,医生单靠临床表现难以鉴别诊断,一定程度上依赖影像学检查,超声检测就是用于诊断膝关节炎病症种类的主要影像方法,其依据是膝关节超声医学图像。本文基于炎性关节病超声图像的人工智能分析,实现炎性膝关节病的超声图像分类,为临床诊疗提供一定依
学位
随着信息时代经济的快速发展,企业的经营活动、金融交易等数据规模呈几何倍增长,在数据高效存储以及安全防护等方面的需求激增。区块链技术由于其去中心化、防篡改等特征,能够很好的解决数据在存储和安全等方面存在的问题,因此,被广泛应用于企业交易活动、产品溯源等领域。如何使区块链技术能够满足不同类型企业的个性化需求,对促进信息产业数字化、推动企业安全技术应用高速发展等方面具有重要的意义。由于区块链技术在企业个
学位
情绪是人类生活中不可分割的一部分。因为微表情是不受人类自主控制的,其对人类情感分析具有重大的意义,十分具有研究价值。微表情识别的含义为根据给定的微表情样本判断其情绪类别。目前微表情识别领域的现有方法仍存在一些问题:(1)现有方法对微表情帧的面部图像直接进行研究,对人脸的各部分没有区分度,而微表情只出现在面部的局部位置,对整个面部运动进行分析会与此特性冲突。(2)微表情数据集制作难度大,现有数据集体
学位
在信息技术快速发展的背景下,文本信息呈现出“爆炸”的状态,军事领域也不例外,面对“爆炸式”的军事文本,情报分析人员需要一种高效的技术手段辅助其分析情报。利用自然语言处理技术处理文本信息,辅助相关人员分析情报,是解决上述问题的先进技术之一。作为自然语言处理领域热点方向之一的事件抽取,在军事情报分析领域中的作用非同小可。本文立足于军事领域,对事件的抽取及应用等问题进行研究。由于军事领域的特殊性,目前公
学位