基于强化学习和注意力机制的朝鲜语文本特征学习研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:ZWH815117176
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征提取是自然语言处理的重要研究课题之一,有效的特征表示不仅能节约人力资源,还能极大地提升后续任务的性能。朝鲜语语料库的人工标注工作过于费时费力,并且朝鲜语信息化和智能化处理的相关研究比较匮乏,因此朝鲜语文本特征学习任务具有重要的学术意义和应用价值。本学位论文采用深度强化学习与自注意力机制结合的策略,针对朝鲜语语料的独有特点,从表征学习的角度,提出两种朝鲜语句子特征学习模型并构建特征表示,用来提升后续自然语言处理任务的效果。首先,收集了13个不同标签的朝鲜语科技文献摘要语料3万余篇,构建了以句子为单位的原始文本数据集。其数据特点是专业名词居多且标签类别难以区分。清洗原始数据后,依次进行粒度切分实验与词向量训练实验,其中粒度切分实验可以增强文本信息的直观性,同时规避黏着语语种的分词误差。词向量训练实验可以结合不同语义语境将原始文本向量化。经过筛选与分析后,将处理后的数据作为模型输入。其次,提出两种朝鲜语句子特征表示模型:信息蒸馏注意力模型(Information Distilled Attention,ID-Attention)和层次结构注意力模型(Hierarchically Structured Attention,HS-Attention)。ID-Attention模型能够学习到是否保留句子中的单词,从而使策略网络可以得到更充分的训练,有效避免因使用分词工具或进行去停用词操作而导致的误差;HS-Attention模型能够学习到朝鲜语句子的内部结构并对其进行调整,从而抽取出带有关联特性的文本向量表示。两种模型均采用强化学习的方法更新句子的特征表示,在文本分类实验中得到更高的分类准确率。最后,两种模型将各自分类网络得到的分类准确率回馈到策略网络中联合训练,得以训练出更好的动作选择序列,即ID-Attention模型能够识别出朝鲜语句子中重要的词语,去除弱相关词语;HS-Attention模型能够划分出句子的层次结构,使得句子的特征更为明显。本课题将文本的特征学习任务转化为序列决策任务,从而使模型可以在没有显式结构标注的朝鲜语文本数据中,达到识别单词以及划分结构的作用,极大地降低朝鲜语文本特征学习对人工标注的依赖。从间接的评价指标来看,模型的分类效果与基于统计的分类模型、基于序列结构的分类模型、基于注意力的分类模型及基于强化学习的分类模型相比,效果均有提升。其中与基于强化学习的HS-LSTM模型比较,分类准确率提升1.46%;与基于注意力的模型Self-attention比较,分类准确率提升2.2%。与此同时,从直接的评价指标来看,模型得到的朝鲜语句子特征表示得到了良好的专家评分。实验结果表明,本学位论文提出的两种模型可以识别出接近人工标注的朝鲜语重要文本特征,对朝鲜语信息化与智能化有良好的辅助作用。
其他文献
微博是国内使用用户较多的社交平台之一,它具有信息传递速度快、覆盖方面广的特点,人们在微博上可以针对某一事件进行评论,以此来表达自己的情感态度。通过对用户评论信息情感倾向的判断,不仅有利于管理部门的监控,对于谣言制止、舆情导向、市场营销等都具有非常高的应用价值。微博评论多以文本的方式呈现,并且规定评论字数不多于140个字符,属于短文本。对于微博评论这种短文本数据存在以下问题:首先,篇幅较短,导致可以
气肿疽是由气肿疽梭菌(Clostridium chauvoei)引起的,主要感染牛、羊等反刍动物的一种急性、热性、败血性和高致死性传染病。病原体易对受损动物机体侵袭,芽孢由咽喉或口腔向血液或受伤组织入侵。临床证实,死亡率与年龄具有相关性,年龄越大,感染率及病死率相对越低,且地方性流行特征明显。若没有进行针对性干预,会增加疾病死亡率,养殖户营业额下降。气肿疽前期症状隐匿,是一种高死亡率、低治愈率传染
猪繁殖与呼吸系统综合征(PRRS)是由猪繁殖与呼吸综合征病毒(PRRSV)引起的一种严重危害养猪业的高度接触性传染病。PRRSV作为一种全世界范围内可导致猪发病的重要致病原,不同性别、年龄阶段和品种的猪均可被感染,临床上可引起仔猪呼吸道疾病、妊娠母猪早产、流产和木乃伊胎等症状。当前商品化的PRRSV灭活疫苗与减毒活疫苗可提供的保护作用十分有限,中和抗体和细胞介导的免疫反应产生较弱,且疫苗毒株很有可
目的:探讨尼古丁(Nicotine;NIC)是否通过细胞凋亡和内质网应激(endoplasmic reticulum stress;ER stress)加重高糖刺激足细胞的损伤。方法:复苏后,将细胞置于含10%胎牛血清、100 IU/ml青霉素、100 UG/ml链霉素和4 ng/ml小鼠干扰素-γ的RPMI-1640培养基中,置于5%CO2培养箱中,33℃培养。当细胞密度达到80%时,用0.25
量子关联和量子相干是量子理论中的两个基本概念。量子关联表征了两体或多体系统的量子特征,而对于整体系统则定义了量子相干。而且,从实际的角度来看,量子关联和量子相干对于量子信息和计算任务也是宝贵的物理资源。一个成功而安全的量子网络依赖于分布在子系统之间的量子关联,这就解决了量子关联的分布问题。量子纠缠的单配性关系表征了这种相关分布。作为量子关联和经典关联的一个基本区别,与一个子系统纠缠的量子系统限制了
目的:通过体外实验,研究坏死性凋亡抑制剂(Necrostatin-1,Nec-1)能否在人近端肾小管上皮(Human kidney proximal tubular epithelial,HK-2)细胞受到高糖诱导的损伤情况下,对其产生保护作用及机制。方法:在体外对HK-2细胞株进行培养,将细胞随机分为5组:对照组(Control,CON):5.5mmol/L葡萄糖、甘露醇组(Mannitol,M
近五十多年来,非线性科学已逐步成为一门跨学科的综合性科学.非线性科学在各个领域里面都有所涉猎,对现代科学理论体系的形成具有明显的推动作用,其中,在各个领域和学科的研究中非线性微分方程始终占有一席之地.无论是在科学理论里亦或现实应用中,非线性偏微分方程都有其应用于实际的重要意义,它通常被用来研究力学、工程技术科学、生命科学以及流行病学等领域方面的问题.而在非线性偏微分方程里,非线性薛定谔方程是一种非
研究背景:胰腺癌是致死率极高的消化道恶性肿瘤,因其早期症状不明显、起病快等原因,致使患者5年生存率不足10%。目前,临床主要采用手术切除、辅助化疗和放疗等治疗策略,但效果欠佳。因此,迫切需要深入探索胰腺癌演进的分子机制,以期为胰腺癌的诊断和治疗提供新策略。多项研究证实,脂质代谢异常是恶性肿瘤的十大标志之一。脂质代谢因子-羟基类固醇脱氢酶样2(HSDL2),隶属于类固醇脱氢酶家族成员,可与还原型辅酶
目的 探讨多层螺旋CT对不典型肝脓肿(Atypical Hepatic Abscess,AHA)的诊断价值,并提高与肝内胆管细胞癌(Intrahepatic Cholangiocarcinoma,ICC)鉴别诊断水平,尽量做到早诊断早治疗,改善愈后。方法 本研究纳入2018年1月至2020年10月期间经超声穿刺、细菌培养证实的肝脓肿患者23例及病理证实肝内胆管细胞癌患者25例,分为不典型肝脓肿组和
随着互联网的高速发展,信息数据呈指数倍增长,如何有效利用这些信息成为人们关注的热点,随之自动问答系统步入人们的眼帘。自动问答系统依据内容所涉及的领域分为开放域及限定域两类。基于开放域的自动问答系统得到各行各业的广泛关注,取得一定的研究进展,但不可直接将其运用到限定域中,原因是限定域的知识专业性强,基于开放域的自动问答系统无法对其进行正确的判断与识别。因此,对于限定域自动问答系统的研究也是不可或缺的