基于数据关系挖掘和MASS技术的数据到文本生成模型研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:wxm2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着人工智能技术的发展,越来越多的工作会因为人工智能的进化而进行革命。比如在文字生成方面。过去人们需要报道员,编辑,记者等职业将一些体育报道或者新闻报道编辑成文字传达给大众。现在人工智能中的文本生成技术正在取代这一过程。而文本生成中的一类重要分支就是数据到文本的生成。这一方向是文本生成的重要研究课题之一,其目标是根据输入的结构化数据自动生成相关的描述性文本。这类任务需要解决两个问题:如何从冗余结构化数据中选择重要信息(内容规划阶段),以及如何以自然语言形式正确描述重要信息(表面实现阶段)。以往的工作指出,目前主要的瓶颈是内容规划阶段。本文基于前人研究的数据到文本生成的模型进行研究,然后在此基础上针对内容规划阶段的一些薄弱环节,增加了数值关系挖掘模块。最后引入MASS(Masked Sequence to Sequence Pre-training for Language Generation)模块。数值关系挖掘模块是为了计算结构化数据中不相邻的数据对之间的内在联系,从而加强文本对数据的描述效果,保证最大程度的不遗漏数据。而MASS模块的引入,是将模型输出的文字进行重新生成,从而达到文本的表述多样化的目的。本文的主要工作如下:1)数据的预处理与向量化。本论文使用了信息抽取技术来从比赛摘要中抽取合适的内容进行规划。该技术能够从文本中识别出候选的实体(球员,球队,城市)和数值(得分,篮板等)的组合对,然后预测每个候选对的类型和关系。这种信息抽取技术的模型结构具体是通过集成三个卷积模型和三个双向LSTM(Long Short-Term Memory)组成从而来预测关系。这个预处理系统的输出内容是元组,其顺序为实体、值、记录类型、H/V。先将球员的名字预处理表明个人姓名,球队记录也被预处理,以表明球队所在城市和球队本身的名称。将预处理后的数据通过全连接层和Re LU(Rectifier Linear Unit)进行向量化。2)内容选择与规划。在得到向量化的数据后,整个系统通过一个内容选择门来对数据中的特征进行选择。具体的做法是将向量化的数据通过注意力机制进行加权,然后得到一个特征矩阵,之后决定哪些特征可以留下来。在这之后,系统中引入了一个数据关系挖掘模块对数据对的关系价值进行再次评估,如果关系价值较高,则将被删掉的特征也加入特征矩阵,得到可以保留的特征矩阵。系统通过指针网络和LSTM构建的解码器,通过输入前一次输出的隐藏状态和注意力机制得到当前步骤的输出。同时也会启用数据关系挖掘模块评估数据之间的关系价值。3)文本生成和多样性表述。得到上一步的内容规划输出以后,通过一个Bi-LSTM网络来对文本进行解码,预测,以及从复制机制中生成文本。然后将模型输出的文本导入MASS中进行训练,最后输出表述更多样性的文本。
其他文献
马铃薯是我国的重要经济作物,营养价值很高,在我国分布十分广泛,既可以饱之以腹,也可以作为优质饲料用于畜牧养殖。本文主要以在海拔3400 m的帕米尔高原塔什库尔干县瓦恰乡种植的彩色马铃薯为研究对象,探索高海拔种植马铃薯覆膜高产种植技术及管理技术,为提高高原地区马铃薯的产量提供参考,同时也为高原农牧民拓展增收渠道寻找到新的增长点、为不断巩固脱贫攻坚成果提出一些建议。
期刊
桑椹富含红色素,主要成分为矢车菊素-3-O-葡萄糖苷(Cyanidin-3-O-glucoside,C3G)和矢车菊素-3-O-芸香糖苷(Cyanidin-3-O-rutinoside,C3R),分别约占桑色素总量的60%和30%。C3G由于其较强的抗氧化和抗炎作用具有潜在的健康益处,是研发功能性食品的重要活性成分。因此,本文基于桑椹红色素的糖基定向改造策略,构建新型的双水相生物催化反应分离耦合体
学位
彩色马铃薯中含有丰富的花青素,具有很好的抗氧化功能和药用价值。为明确不同彩色马铃薯产量及品质差异,进而筛选高产优质的彩色马铃薯品种,试验以‘大同里外黄’为对照,11个彩色马铃薯为研究材料,测定其产量性状与品质性状,并分析了短期贮藏下彩色马铃薯中花青素的含量变化。‘民丰红’的产量最高,达33 558 kg/hm~2,与对照品种‘大同里外黄’(22 550 kg/hm~2)差异显著。‘民丰红’的综合性
期刊
目的 观察营养干预和免疫调节治疗在奥密克戎变异株感染所致重症肺炎患者中的疗效。方法 回顾性收集2022年12月20日至2023年1月30日在宁波大学附属人民医院住院的58例奥密克戎变异株感染重症肺炎患者,均采用营养干预、免疫调节治疗及基础治疗,比较治疗前后白蛋白、前白蛋白、淋巴细胞、CD4+T细胞、CD8+T细胞及白细胞介素6(IL-6)水平,观察临床治疗效果及住院时间。结果 营养干预前NRS 2
期刊
船舶涂装是船舶建造周期中的关键一环,而船舶涂装缺陷影响着船舶涂装的质量。目前,行业内绝大多数的涂装缺陷都是在涂装施工过后凭借相应的方法进行检测,没有一个科学的缺陷预防方法。在船舶涂装行业智能化、绿色化的发展背景下,急需研究船舶涂装缺陷的相关知识,并且合理地将船舶涂装缺陷知识再利用,以预防涂装缺陷、减少缺陷修补,进而实现涂装行业智能化、绿色化发展。主要研究内容如下:(1)针对船舶涂装缺陷显性知识混杂
学位
选区激光熔化(SLM)是增材制造技术的一种,可实现复杂金属零部件的直接近净成形。铝合金是一种重要的轻量化材料,广泛应用于航空航天和交通运输等领域。目前SLM成形高性能铝合金主要成分是Al-Mg-Mn-Sc-Zr,但该合金含有较多的Sc元素,原料成本高昂。基于此,本研究通过原料成本低廉的Er替代Al-Mg-Mn-Sc-Zr合金中的Sc,系统研究了工艺参数对Al-2.74Mg-6.01Mn-0.86E
学位
如今由于工业中应用(如建筑和运输部门)的主要能源为化石燃料,是造成环境污染和温室气体排放的重要原因,为了减少化石燃料的使用,可再生能源的发展和低碳化是如今人们关注的热点问题。而以风能、太阳能为首的可再生能源普遍存在间歇性与不稳定的缺点,储能技术的发展可以有效地弥补可再生能源的缺点,是新能源发展的核心支撑。在众多储能技术中,电化学储能由于效率高、灵活性好和低成本等优点,成为了最具应用前景的储能技术之
学位
报纸
伴随信息技术的普遍应用,数据的分析和管理技术瞬息万变,爆炸式增长的数据规模也给传统的数据处理技术带来了极大挑战。如何高效地从海量多元的数据中,挖掘潜在的知识并进行数据处理已成为信息科学和人工智能领域中重要研究课题之一。数据挖掘技术本质上是一种决策过程,即用算法来搜索隐藏在大量数据中的信息,其中聚类算法最具代表性。传统聚类要求边界清晰,一个数据对象最多属于一个类别,但由于非结构化数据成为主流,数据中
学位
蚕桑产业是我国的一个传统优势产业,在全球蚕桑生产中占有重要地位,为我国农村和农业的发展做出了巨大贡献。江苏省作为全国的重要蚕区之一,有着悠久的蚕桑发展历史。本文在分析国内外蚕桑产业发展现状和江苏省蚕桑产业发展背景的基础上,对江苏省蚕桑产业发展现状进行了较为深入的调研和分析,发现江苏省蚕桑产业的发展具有自然环境适宜、产业历史悠久和产业基础良好等优势,取得了显著的进展。但仍存在着一些问题,包括存在环境
学位