基于句子排序的作文段落生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:vismiling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能不断发展,已经扩展到日常生活的方方面面。作为人工智能的重要子领域,自然语言处理方向上涌现出越来越多的重要技术,段落级的长文本生成技术也得到了极大的发展。目前,段落级的文本生成主要有两种做法,抽取式是从语料中抽取句子进行组织,形成可读的连贯文本;生成式是通过端到端的深度神经网络,逐字地生成段落文本。但是,目前神经网络生成的文章依然有着连贯性较差的情况,尤其在抽取式方法中,问题更为明显。为了缓解文本生成的连贯性问题,本课题以句子排序技术的连贯性建模能力为依托,研究抽取式和生成式的文本生成。句子排序技术关注一个段落内各个句子之间的位置及顺序关系,是一项比较通用的连贯性建模技术。我们首先研究基于预训练模型的句子排序模型。我们在经典排序模型基础上,复现方法,引入预训练模型信息。然后,我们研究了基于预训练的Transformer编码器直接表示的句子排序方法,又研究了端到端的标签生成式句子排序技术,将排序问题转化成一个简单的生成问题,并在此基础上,引入了迭代机制和连贯性评价,达到了目前句子排序任务中的最好效果。其次,我们研究基于句子排序技术的抽取式作文段落生成。我们提出了融入知识的中文预训练模型BART-knowledge,基于Transformer的结构,融入知识进行预训练,与其他现有的预训练模型进行对比,可以在中文句子排序任务中达到最好的指标。我们针对抽取式的高考作文生成这一实际场景,改变以前项目中原有的先排序后截断的段落组织方式,重新构建了自监督的训练和测试过程,探索在抽取式作文生成场景下最好的段落组织模型,可以生成更加连贯、一致的段落。最后,我们研究句子排序技术增强的生成式段落生成。探究在目前的预训练模型微调的段落生成的基本范式下,引入句子排序技术的相关连贯性建模,改善生成文本的质量和连贯性。我们首先引入多任务学习的思想,在微调过程中加入句子排序的判别损失和不同位置的句子相似度损失,提高了段落生成任务的各项指标。其次,我们探索了基于句子顺序对比学习的段落结尾生成技术,从而提高生成结尾的连贯性和一致性,取得了较好的效果。
其他文献
<正>中国移动董事长杨杰表示,信息通信业要主动把握机遇、寻求突破,着力推动“CT、IT、DT技术融合”“连接、算力、能力服务融合”“推动新一代信息技术与生产、生活、治理应用融合”,力争在新一轮科技创新浪潮中发挥更大的作用、实现更快的发展。
期刊
已勘探出松辽盆地南部赋存着丰富的地热资源,地温场特征以及岩石圈热结构的研究在地热资源研究中占有重要地位。关于松辽盆地南部中央坳陷区现今地温场以及岩石圈热结构研究较为薄弱,缺少平面上和剖面上系统的分析和研究,制约了热历史的研究和油气勘探。本论文分析了研究区地温场参数,展现了研究区现今地温场分布、岩石圈热结构等地热特征。样品生热率测试结果表明松辽盆地南部中央坳陷区岩石生热率介于0.4~2.2μW/m3
学位
数字政府建设是顺应经济社会数字化转型的新趋势,也是推进国家治理体系和治理能力现代化的新途径和新方式。从数据生产力的理论视角出发,重点剖析数据生产力驱动数字政府建设的实践逻辑与运作机理,以此为数字政府高质量发展提供理论依据。研究发现,当前数据生产力驱动数字政府建设的形态表现为高效政府、阳光政府、整体政府、智慧政府,且呈现出数据全域标识、状态精准感知、模型科学决策、智能精准执行的特征。在此基础上,理念
期刊
综合材料作为绘本创作的一种形式语言,在满足读者更高层次阅读需求的同时,也更好地表达了绘本的故事内容与情感。文章概述综合材料绘本的缘起发展,分析综合材料在绘本创作中的应用价值,探究综合材料在绘本创作中的应用技巧,以及如何展现其生命力与艺术价值,旨在为绘本的创作提供多元化的发展途径。
期刊
交互式绘本是传统绘本在数字媒体技术下的延伸,是基于用户体验下的绘本创新设计。上元节是中国传统节日的重要组成部分,以唐代上元节为内容进行交互式绘本设计,能进一步探索传统文化的视觉元素在儿童绘本中的应用途径,也能有效地激发儿童的阅读兴趣。文章首先采用文献资料法介绍唐代上元节习俗,然后通过案例分析法阐述交互式绘本的意义,最后用以小见大的设计手法进行绘本的初步设计。旨在通过唐代上元节的交互式绘本设计,达到
期刊
随着AR技术的广泛应用,交互式绘本作为一种新媒体形态正在被越来越多地使用到儿童的阅读教学中。文章将α世代的儿童群体作为研究对象,结合AR技术与儿童绘本,从阅读载体、视觉形式和虚实结构三个方面来探讨AR技术带来的新兴数字化阅读体验,探索儿童交互式绘本的交互体验,同时总结出α世代儿童交互式绘本的设计原则与策略。
期刊
篇章级事件抽取是信息抽取技术的一个分支,可以从篇章文本中自动抽取出用户感兴趣的结构化的事实信息,目前已经在金融、法律、医疗、新闻摘要等领域有着极高的应用价值。本文在分析当前流行的句子级和篇章级事件抽取方法的基础上,以解决篇章级事件划分和论元分散等问题为目的,我们提出了基于论元粒度的统一评价指标,并从以下三个方面做了充分研究:(1)基于阅读理解技术的流水线式篇章级事件抽取方法研究。本文提出了一种基于
学位
当代中国正处于百年未有的重大变局之中,国家、社会、个人三个层面皆面临着价值重塑的问题。对主流价值观的传播直接切中中国特色社会主义建设最深层次的问题。同时,互联网和多媒体技术的迅速兴起使得文本数据呈爆炸式增长,如何合理有效地实现内容的主流价值观认知理解是一项极具挑战性的难题,在主流价值观上的相关研究对于净化网络空间,维系和谐稳定的社会环境,具有重大的现实意义。本文首先构建了一个主流价值观知识图谱,并
学位
吉华1变质岩潜山地区位于河套盆地临河凹陷的西南部,该地区的储层类型为变质岩储层,且裂缝的发育程度在很大程度上影响了单井的产能。本论文对吉华1潜山变质岩储层裂缝的分布规律进行了描述,明确了影响研究区变质岩储层裂缝发育的主控因素,最后运用多信息融合和数值模拟等方法对裂缝的分布进行了综合评价,这将对变质岩潜山储层裂缝的研究和研究区的下一步勘探具有重大意义。通过对露头区、钻井岩心、铸体薄片、成像测井及常规
学位
报纸