【摘 要】
:
自然语言生成是自然语言处理的重要研究领域之一。中文古诗自动生成方法的研究始于上世纪末,并因其丰富的研究价值,近年来逐渐成为自然语言生成领域的研究热点之一。同样,藏文律诗具有修辞丰富、喜用词藻、形式规范、语言华丽、韵律动听等特征,并在当代藏文教学中,同藏文文法一样,被列为必修基础课之一,从而成为研究藏语自然语言生成方法的理想切入点。在理论研究方面,该任务有助于探索人类写作过程转化为可计算的自动创造过
论文部分内容阅读
自然语言生成是自然语言处理的重要研究领域之一。中文古诗自动生成方法的研究始于上世纪末,并因其丰富的研究价值,近年来逐渐成为自然语言生成领域的研究热点之一。同样,藏文律诗具有修辞丰富、喜用词藻、形式规范、语言华丽、韵律动听等特征,并在当代藏文教学中,同藏文文法一样,被列为必修基础课之一,从而成为研究藏语自然语言生成方法的理想切入点。在理论研究方面,该任务有助于探索人类写作过程转化为可计算的自动创造过程,同时对其他生成任务具有参考价值和启发意义;在应用价值方面,该任务在智能教育、文学研究、辅助作诗等方面有着广泛的应用场景。目前,藏文律诗自动生成研究尚处于起步阶段,现有方法生成的诗作存在上下文不连贯、主题飘逸、趋于雷同等问题。针对上述不足,该文的主要研究内容和贡献如下:1.从藏文电子书籍及网页中共收集、整理了含有46.55亿字符的藏文文本语料,其主题包括文学、自传、诗歌、格言、散文和新闻等。然后通过藏文律诗抽取算法获取了131.3万首律诗,并对每一首藏文律诗随机抽取1到4个关键词,为训练生成模型提供数据支撑。2.在基于端到端的生成模型基础上提出三种不同的生成方式,分别是逐行生成方式、半首生成方式和整首生成方式。与由多个模块组合的基线模型相比,虽然该方法中仅用一个生成模块,并且由该模型完成生成一首完整的藏文律诗,但是会降低模型之间的错误积累问题。通过从语言建模能力和生成结果多样性方面评测表明,该方法有效提升藏文律诗的生成质量和上下文连贯性。3.提出一种结合文本数据增强方法的藏文预训练语言模型。在藏文文本增强方法中,将采用基于音节混淆子集和基于上下文的增强方法,并以此取代音节(词)被随机替换或用特殊符号替换的数据增强方法。与这种随机增强方法相比,该方法不仅能降低特殊符号的使用率,而且增强的句子具有更强的逼真性,即更接近真实文本中出现过的音节误用、语法错误以及语义差错的句子。该模型在藏文文本分类和命名实体识别等五个下游任务中均取得显著效果。4.提出一种基于预训练及控制码法的藏文律诗生成方法。在藏文预训练语言模型上进行微调后生成质量显著提升,引入控制码法后在很大程度上确保了扣题程度,并且关键词在生成诗作中的平均覆盖率居高。此外,在生成诗作中不仅提高词汇的丰富性,而且生成结果的多样化方面也明显提升。经测试表明,基于预训练及控制码法的生成方法显著优于已有的方法。
其他文献
公平准则是人们共同遵从和维护的核心社会规范,对于个体和社会的生存发展至关重要。以往有关经济博弈的研究表明,当个体作为第三方(旁观者)目睹分配者进行不公平分配时,通常愿意牺牲自己的利益去惩罚分配者或者补偿遭受不公平分配的接受者,以此来维护公平。但以往研究通常聚焦于分配者有意的不公平分配行为,即分配者的分配意图和分配结果相一致。分配者的分配意图是指分配金钱的个体为了得到某种分配结果而采取行动的愿望和主
光化学探针是人们快速准确了解目标分析物的化学信息和感知微观世界的有效工具。从作用机制上讲,光化学探针大致可以分为纯化学反应型和非共价键作用主导型两种。其中,化学反应型探针在响应过程中涉及到共价键的断裂与生成,且大多数情况下不可逆,故此类化学反应型探针仅能实现一次性传感。这使得化学反应型探针在重复利用和对目标分析物的动态监测等方面具有很大局限性。相反,超分子非共价键作用的动态可逆、刺激响应等特点在可
滨海湿地具有固碳减污、保堤护岸和维持生物多样性等重要的生态服务功能。然而,作为一种典型的生物地貌生态系统,滨海湿地高度敏感而脆弱,极易受到全球变化和人类活动的威胁。在海平面上升和外来物种入侵等因素的影响下,我国盐沼生态系统正经历严重退化。由于生物地貌生态系统存在生物学、生态学和地貌学之间的动态特征和复杂的反馈机制,科学保护和管理盐沼生态系统仍然是一项迫切且艰巨的任务。本论文以长江口崇明东滩湿地为研
中华绒螯蟹(Eriocheir sinensis)隶属于节肢动物门(Arthropoda)、十足目(Decapoda)、弓蟹科(Varunidae)甲壳类动物,其广泛分布于我国不同的沿海和内陆淡水环境中,是我国最有价值的淡水渔业产品之一。近年来由于各种疾病的不断出现导致我国水产养殖者经济损失巨大,因此,对其开展免疫系统的基础理论研究不仅有助于理解中华绒螯蟹以及其他甲壳动物的免疫防御机制,同时对于中
环境安全问题是当下全球关注的焦点,温室效应是亟待解决的难题之一,CO2作为主要的温室气体,亦可视为一种宝贵的含“C”资源。围绕CO2的回收与利用,通过建立高效的人工碳循环、转变能源的发展方式以及加快推进可再生能源替代技术发展将有助于同时解决环境与能源问题,从而实现新时期绿色可持续发展。微生物电解池(Microbial Electrolysis Cell,MEC)是一种新兴的生物电催化技术,可在常温
政府对大学办学绩效、教育教学质量的要求不断提升,大学面临各类综合评价、教学评价方面的压力,需要不断优化内部治理体系,调动院系办学积极性,不断提升办学绩效和教育教学质量。在分权的同时加强对院系的综合评价是重要的治理手段,在深化新时代教育评价改革、新一轮本科教育教学审核评估的宏观背景下,原有的院系综合评价体系需进一步优化。在文献综述和理论研究的基础上,发现院系教学综合评价的理论研究相对于评价实践存在理
本研究聚焦小学课堂回音的话语分析。课堂回音是课堂话语的一种形式,主要指学生应答教师提问后,教师对学生的应答再次作出回应。本研究首先旨在探索我国小学数学课堂中回音的类型与话语组织策略,以此为基础,本研究进一步分析教师利用回音建构意义的方式与结果。本研究中纳入分析的14节小学数学课来源于2020-2021学年三所小学的数学课堂教学。基于对研究数据的转录、编码与分析,本研究主要得出了以下结论。第一,我国
塑料制品或微塑料颗粒会在环境中持续破碎化,产生直径小于1000 nm的纳米塑料,这些纳米级的小颗粒更容易携带有机污染物进入生物体内并造成危害。目前对于环境样品中纳米塑料的分离与鉴定方法研究仍比较缺乏,发展更多可行的分离与鉴定方案是提高对环境纳米塑料认知的重要基础,也是评估微纳塑料颗粒污染生态风险的首要步骤。因此,论文根据纳米塑料的分析流程,把控分离、富集和鉴定的关键环节,选取城市河水作为研究的环境
由于CO2过度排放,导致自然界碳循环失去平衡,碳中和成为环境治理最重要的目标之一。将CO2转化为高附加值的化学品不仅可以减少大气中的CO2浓度,还可以提供满足工业发展需要的化学品。甲醇是化工生产中极其重要的化工原料,它可以用来进一步制备烯烃、芳烃等化学品,也可以直接用作燃料。二甲醚被誉为“21世纪的清洁燃料”,具有优良的燃烧性能,易于液化和储存。因此,CO2催化加氢制备甲醇和二甲醚是具有广阔应用前
近年来,随着“棱镜门”事件等一系列大规模监听事件的不断爆发,人们开始逐渐认识到一种新的攻击密码算法的方法——颠覆攻击(Subversion Attack,简称SA)。SA是一种用以实施大规模监听,进而窃取隐私信息的常用手段。具体来说,SA是指攻击者在密码算法设计或实现过程中加入一些仅自己已知的秘密信息或陷门信息,即设置一些后门,以方便后续破解所有收集到的加密信息,从而获取用户的隐私信息,最终达到收