基于生成式对抗网络的文本数据增强系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sharkzw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的高速发展,自然语言处理等计算机技术获得了极大关注,具有很强的研究潜力。文本生成在自然语言处理领域有着重要意义,高质量的文本对于对话系统、智能翻译、文学写作、知识图谱等与自然语言处理相关的任务具有重要影响作用。文本数据由于自身的离散性和语义结构自身的复杂性,容易出现文本训练数据样本数量少、质量差、样本缺失等难题。现有的文本生成技术的研究已经有了较大的进展,但是仍存在着一定的局限性。例如基于循环神经网络的方法通过对数据概率分布显式建模,利用最大似然估计进行训练优化,但是文本等复杂数据的概率近似计算复杂,并且对训练数据的概率分布过度依赖;基于卷积神经网络的方法由于参数共享特性使得需要优化的参数数目极大缩减,但网络学习单词之间长距离依赖关系的效果较差;基于生成对抗网络的方法采用判别器去度量映射分布的优劣,但是仍存在判别器回传给生成器的信号指导性不强,导致生成器训练方向不明确的问题。针对上述问题,本文提出了一种基于生成对抗网络模型的文本数据增强算法。首先,针对生成器训练中反馈指导信号不足,本文采用增加特征指导网络的方式进行改进,将从判别器提取的高阶文本特征经过转换送入生成器进行反馈指导;其次,针对文本生成过程中采样不充分、生成文本质量差的问题,本文制定相关文本语义规则,在生成时间步进行限制,提高文本生成质量。最后,本文在合成数据、COCO文本标注、中国古诗歌等数据集上进行文本生成对比实验,结果表明在各项指标上本文提出的基于生成对抗网络模型的文本数据增强算法表现优于其他对比模型。针对提出的基于生成式对抗网络的文本数据增强模型,本文采用python语言与TensorFlow框架构建和实现了适用于文本的数据增强系统,主要包括文本数据预处理模块、文本增强任务管理模块、文本数据增强模块和文本生成展示模块等。通过进行功能和性能测试,验证了本文所设计和实现的文本数据增强系统可以改善训练数据集样本少、数据质量差的问题,可有效支撑自然语言处理任务。
其他文献
高分子水凝胶,由大量的水和通过共价键或非共价键交联而成的三维网络构成。由于独特的性能,水凝胶在组织支架、软骨修复、药物释放、可穿戴设备、智能器件等领域受到越来越多的关注。但是,力学性能和生物相容性方面的缺点限制了它的实际应用。近年来,物理交联双网络水凝胶由于出色的力学性能和优异的自恢复能力而吸引了较多注意。但是制备方法的复杂性和水凝胶结构调整的繁琐性限制了它们在很多领域的实际应用。本文通过冻融循环
Patent Troll是指那些从来不实施专利,而是通过购买专利从而寻求目标企业以获取专利许可费,并以专利侵权诉讼为最后手段以获取赔偿金的企业或个人。Patent Troll的运营成本低
区域是地理学研究的中心问题之一,从区域煤矿角度考虑一个地区的煤矿安全态势,有助于信息集合并最大化利用。本论文以各煤矿安全监察分局所辖范围内的煤矿为研究对象,分析区域煤矿安全态势及预警指标体系,构建多源信息融合安全态势分析及预警模型,并提出事故预警技术和管理体系。首先,收集国内外煤矿事故统计数据,分析出煤矿事故存在区域性差异,从区域视角对安全态势进行研究具有重要意义。研究分析区域煤矿灾害机理,并用鱼
随着国民经济发展,越来越需要建设深井以开发深部的固体矿产资源,而竖井掘进机法是深井建设的重要发展方向。采用竖井掘进机法进行深井建设时,洗井排渣技术是最大的难点。空气洗井具有节约水资源、降低工程造价、钻进效率较高等明显优势,而且随着我国西部干旱缺水地区固体资源开采及凿井工程的增多,采用空气洗井的竖井掘进机法,将显示出突出的优势。在此背景下,本论文综合采用数值分析、模型试验方法,开展了竖井掘进机空气洗
伴随我国社会经济的发展,建筑的空调系统(供热和供冷)占到社会总能耗的25%~30%,传统能源存在环境污染等弊端,清洁能源的开发迫在眉睫。在各种新能源和可再生能源中,地球地表下包含存储的地热能源能有效应用于空调系统。本文基于地热开发的能源桩技术提出了一种新型的深层埋管式能源桩技术,该技术不仅充分利用桩内埋管式能源桩的优点,并且可利用更深层地热来提高单根能源桩换热量。新型能源桩的结构形式灵活,能够根据
21世纪初,中国的城市化进程呈逐年递增趋势,截止2019年,中国的城市化率已达五成以上,这意味着中国的城市化迈入了一个新的历史阶段。2015年牡丹江市对A社区进行了初步网格化,
太赫兹波位于微波段和光波段之间,当前没有大规模的应用,本文主要以太赫兹波的应用为背景,通过理论计算和实验测量两种方式对目标太赫兹散射特性进行研究,揭示太赫兹频段目标散射特性的影响因素。针对常见算例利用不同的计算方法,由于太赫兹频段的特殊性,主要从电磁方法和光学方法两个方面对其散射特性进行研究,为太赫兹频段目标电磁散射提供仿真和测试两方面的数据支持,具有一定的理论和应用价值。本文创新性的给出太赫兹频
现代移动通信以第一代移动通信技术的发明为标志,在经历爆发式增长后,对人们的生活方式产生巨大的影响。如今,移动通信渗透到生活的方方面面,成为推动社会发展的重要因素之一。5G作为新一代移动通信技术,将广泛应用于增强移动带宽(enhanced Mobile BroadBand,eMBB)、高可靠低时延通信(Ultra-reliable and Low Latency Communication,URLL
无线通信技术的快速发展,促使了各类新型应用的产生,运营商提供的服务类型也在飞速的扩展,如短视频、在线直播等等,此时服务类型由传统的“以连接为中心”的服务转变为了“以内容为中心”的服务。这些服务需求不仅有高数据传输效率、低传输时延的要求,同时也需要大量的计算能力和持续的数据处理能力。要想最大化利用有限的无线频谱资源,优秀的资源分配算法是提高整个网络性能的关键,而传统的资源分配算法很难同时满足这些需求
随着城市居民的生活品质和电气化程度的逐渐提高,作为与电网用户联系最为紧密的配电网的建设与发展,在新时代背景下面临着诸多的问题与挑战。配电网重构不仅作为提高系统电能质量、供电可靠性与灵活性的重要手段,也在减小网络损耗、提高运行经济性等方面发挥着关键作用。由于分布式电源(Distributed generation,DG)具有良好的环境效益和经济效益,DG已被广泛地应用于配电网中,但是随之而来的功率倒