基于ALBERT的藏文预训练模型及其应用

来源 :兰州大学 | 被引量 : 3次 | 上传用户:zhongguohuhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,预训练和微调的模型训练方法是一种可以在未标记数据集上训练预训练模型,然后在标记数据集上对预训练模型进行微调的方法。该方法极大的减少了对于标记数据集的需求,同时为下游任务节省了大量的时间和计算资源。借助预训练模型,人类在多项自然语言处理任务中均取得了重大突破。藏文预训练模型的研究不仅可以有效地应对藏文标记数据集缺少的问题,还可以促进藏文自然语言处理研究的进一步发展。目前,针对藏语言的预训练模型研究尚处于探索阶段,但其对藏文自然语言处理研究有着重要的理论意义和广泛的应用价值。为此,本文开展了藏文预训练模型的相关研究,主要包括以下内容:1、针对目前藏文没有公开数据集的问题,本文在西北民族大学多拉教授提供的语料库基础上通过爬虫工具搜集了西藏人民网、青海藏语网络广播电台官网、青海省人民政府网等网站的藏文语料文本作为预训练模型的训练数据集,同时搜集了中国藏族网通网的数据制作了藏文文本分类数据集以及藏文摘要提取数据集。2、针对藏文标记数据集不足的问题,本文训练了藏文ALBERT预训练模型以减少下游任务对标记数据集的需求,该预训练模型在掩词预测任务中精度达到74%,在句子顺序预测任务中精度达到89%。3、通过对比ALBERT藏文文本分类模型和GBDT、Bi-LSTM、TextCNN在文本分类任务中的性能差异,验证了藏文ALBERT预训练模型在文本分类任务中的有效性。同时,为了解决样本不平衡问题,在ALBERT藏文文本分类模型中引入焦点损失函数,使小样本类别预测结果得到一定程度上的提高。4、通过藏文抽取式摘要提取对比试验,进一步验证了藏文ALBERT预训练模型在下游任务中的有效性。
其他文献
非富勒烯小分子受体(NF-SMAs)由于具有易调节的吸收光谱和电子能级、良好的活性层形貌、确定的分子结构等优点受到广泛关注。本论文重点介绍了具有稠环核心和非稠环核心的A-D-A
背景改良早期预警评分(Modified early warning score,MEWS)是涵盖体温、心率、呼吸、收缩压、意识的病情评估工具,可通过早期、客观地评估患者病情,有效识别“潜在危重病”患者,降低不良事件发生[1]。英国国家医疗服务体系(National health service,NHS)推荐将MEWS作为医疗机构评估病情的工具,但目前MEWS的相关研究多集中于急诊、重症监护病房(I
食品和饮用水中的微塑料可通过经口暴露进入人体中,对人体肠道产生潜在的健康风险。现有研究表明,微塑料会引起水生生物和小鼠的肠道屏障损伤和炎症反应,并表现出尺寸效应。
质谱分析是一种测量离子质荷比(质量-电荷比)的现代元素分析方法,能够将物质成分按照质荷比的不同进行分离,广泛的应用在物理、化学、天文、生物等科学研究领域。质谱仪由离
复杂零件结构参数的精确测量在工业生产中具有重要意义,采用人工检测零件的成形尺寸不仅效率低而且检测精度不高。为了实现对复杂零件结构参数的在线快速测量。以温度控制器的陶瓷外壳为研究对象,采用机器视觉结合激光辅助的方法,对复杂零件结构参数自动检测系统进行研究和设计。主要研究内容如下:1)零件平面参数测量方法研究。根据零件平面参数测量的基本原理,针对温控器陶瓷壳的结构特征设计了平面尺寸测量方案。采用单相机
随着社会与经济的飞速发展,企业之间竞争的焦点不再是产品的竞争、服务的竞争,而是产业链的竞争。自中粮集团提出全产业链的发展理念并取得明显的成效后,各大龙头企业纷纷效仿,全产业链使得企业各个环节紧密相连,提高企业的创造价值。对于农业产业,全产业链发展模式是农业产业化的创新经营模式,就食用菌产业而言,全产业链发展模式将食用菌的种植、研发、加工到消费等环节串联起来,加强了企业协同效应。全产业链不仅解决食用
中国顺应时代发展,正以崭新的姿态走向世界舞台,伴随国际交流日益频繁,跨文化交流活动也呈现出新的特点,有效沟通成为当今中国应对挑战,抓住机遇的要点。适当把握空间关系有利于规划和创造合理空间,提升空间感受和实现有效沟通,因此翻译与传播阐述空间关系的国外优秀书籍可促进跨文化交际,助推中国与世界对话。本书通过对空间关系与人类感知能力的介绍,运用合理方法以提高空间感受,这一点具有建设性。本报告基于爱德华·霍
本次翻译项目是受出版商委托,选自新疆本土儿童文学作家文昊(于文胜),雨辰(胡震四)合著的绘本《雪莲花动漫城堡》(第二辑)。该绘本中的故事素材丰富,每一个故事都可谓精雕细琢,语言生动简洁,并配以形象有趣的图画,充满童真童趣,深受广大儿童的喜爱,对扶持与推动新疆本土原创儿童文学起到至关重要的作用。考虑到儿童文学翻译的特殊性,读者群大多为儿童,他们的接受能力,认知水平,语言风格的独特性和心理状态与成年人
研究生物实体之间的复杂关系网络对于揭示生物体的奥秘具有重要作用,而这些知识信息往往存在于生物医学文献中,如何自动从大量文献中挖掘出有用的结构化信息成为一个重要的研
漆包线是众多机电产品中必不可缺的材料,漆包线的表面缺陷会降低这些产品的性能,甚至会引起安全事故,因此,在生产过程中必须及时检测漆包线的表面缺陷。然而,传统的检测方法难以满足实际生产线上的检测要求。本文以扁平漆包线为研究对象,基于图像处理技术提出了扁平漆包线表面缺陷在线识别系统。本文的主要研究内容如下:(1)提出了扁平漆包线的四面检测方法。设计了反射镜与相机组合的光学平台,利用漫反射圆顶光源对系统进