【摘 要】
:
老挝作为中国的重要邻国,与中国在经济上有着密切的联系,开展老挝自然语言处理的研究工作存在重要战略意义。其中,机器翻译、信息检索等跨语言信息处理任务需要汉老双语平行语料的支持。双语句子对齐作为构建双语平行语料的关键技术,旨在提取双语文本中语义相同的平行句子对,因此具有重要的研究意义。本文提出一种融合多特征的汉老双语句子对齐方法,从而解决研究中存在的问题,主要工作如下:(1)融合文本特征的汉老双语句子
论文部分内容阅读
老挝作为中国的重要邻国,与中国在经济上有着密切的联系,开展老挝自然语言处理的研究工作存在重要战略意义。其中,机器翻译、信息检索等跨语言信息处理任务需要汉老双语平行语料的支持。双语句子对齐作为构建双语平行语料的关键技术,旨在提取双语文本中语义相同的平行句子对,因此具有重要的研究意义。本文提出一种融合多特征的汉老双语句子对齐方法,从而解决研究中存在的问题,主要工作如下:(1)融合文本特征的汉老双语句子相似度计算方法由于汉语老挝语平行语料稀少,且老挝语在语义表达、句子结构上和汉语有明显差异,导致汉老双语句子相似度研究的难度较大。因此本文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先在句子相似度模型中将汉语老挝语词性、数字共现等文本特征与Glove预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短期记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后采用迁移学习的方法将通用模型参数初始化该模型,并使用不同的微调参策略增强模型的泛化能力。实验表明,该模型具有不错的性能,其准确率、召回率和F1值分别达到了82.5%、85.78%和84%。(2)融合字符特征和Corrnet网络的汉老双语句子对齐方法针对获取高质量的汉老平行语料较难的问题,本章提出融合字符特征向量和相关神经网络的汉老双语句子对齐方法,在方法(1)的基础上,通过进一步研究分析迁移学习方法,构建融合字符特征的GCNN-CorrNet模型,充分利用字符构词信息及汉语老挝语文本特征,丰富词向量蕴含的语义信息,并将汉-老句子向量表示映射到共享语义空间联合学习通用语义表示,根据共享空间中的通用表示计算两种语言的相似性距离,从而判断汉老双语句子是否平行对齐,实现更精准的双语句子匹配。由实验结果可知,GCNN-CorrNet模型融合字符特征和文本特征后其F1值达到84.30%,证明了该方法的有效性。(3)融合实体和句子特征的汉老双语句子对齐方法由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果;另外,人名地名在汉老双语文本中大多属于未登录词,也阻碍了汉老句子对齐研究。本文着重于关注双语句子局部和全局语义信息,提出一种融合实体和句子特征的汉老双语句子对齐方法,首先将汉老双语句长特征和人名地名特征融入Glove词向量,然后利用双向门控循环单元对特征词向量进行编码,以得到更细粒度的句子局部信息。其次引入交互注意机制提取双语句子中的全局信息,保证对上下文语义特征的有效利用。最后,在多层感知机的基础上引入KM算法,该方法可以处理非单调对齐文本,提高模型的泛化能力。实验结果表明,该方法显著提高了汉老双语新闻语料的对齐性能。
其他文献
纤维结构是存在于太阳色球层中的一种呈现出喷射状态的线性拉长结构,研究色球纤维的动力学特征能够帮助人们对太阳大气质量平衡以及针状体的演变过程进行更进一步的研究。进行纤维结构动力学特征的研究的前提是对太阳色球纤维进行准确的识别和提取,因此选择一种高效准确的识别方法是当前人们的关注重点。在进行色球纤维识别前,我们首先对纤维图像的特点进行了分析研究,发现当前纤维识别的难点以及存在的问题仍然有许多。因为在色
预测和推理未来结果的能力是智能决策系统的关键组成部分。近些年,以深度学习为代表的机器学习预测算法取得迅猛发展,广泛应用于天气预报、自然灾害预警、疾病诊断等领域。然而,在太阳光球磁场演化研究方面,由于缺乏完备的数据集和全面的评价标准,以及演化过程中存在磁结构运动、形变、浮现、消失等多种复杂变化交织的问题,使得直接在时间和空间上预测磁场的演化过程具有较大挑战,所以目前尚无对太阳磁场的演化过程进行预测研
随着我国网络技术普及度的加深,网络社交媒体中产生了海量的带有情感色彩的文本数据。研究者们根据情感表达中是否含有情感词,将其分为显式情感表达和隐式情感表达,由于我国网民更倾向于通过含蓄的方式来表达情感,所以中文的隐式情感表达数量非常庞大。对这些海量的隐式情感表达进行分析,是情感分析研究中不可或缺的重要部分,在舆情分析、升用户体验以及改进服务和产品质量方面,具有广泛应用场景和重要研究意义。本文对源自社
随着电子商务的快速发展,服装市场的潜在价值也在逐步显现,针对服饰检索、服饰识别和服饰推荐等计算机视觉领域的研究出现一系列研究任务。我国有55个少数民族,民族服饰种类繁多,服装结构复杂,语义属性丰富,能够将服饰图像检索技术与民族服饰文化相结合,对民族服饰实现数字化,这对传统民族文化保护具有重要意义。民族服饰图像具有不同民族风格的服装款式、配饰和图案导致的民族服饰图像细粒度检索准确率较低的问题,本文提
近年来,法院工作已经成为互联网媒体和舆论关注的焦点,来势汹涌的网络舆情给法院工作造成了巨大的压力。面向案件微博评论的情绪分析有助于法院等相关部门及时了解和掌握案件微博舆情,然后进行舆情监控和传播引导。面向案件微博评论的情绪分析属于特定领域的任务,存在没有公共数据集、情绪表达具有领域性等研究问题,值得深入研究。本文研究面向案件微博评论的情绪分析方法,主要从以下几个方面开展研究:(1)案件微博评论情绪
金属作为制造业的支柱产品之一,金属的质量优劣影响着终端产品的质量。金属表面缺陷检测是金属质量控制的重要一环。金属的表面缺陷检测中,基于机器视觉的检测技术已经成为主流。机器视觉本质上是模仿人类视觉系统,现在表面缺陷系统中硬件设备已经较为成熟,因而图像处理技术成为研究重点,其性能决定着整个缺陷检测系统的性能。金属表面缺陷图像存在着,缺陷和背景对比度低,缺陷类型和尺寸差别大等问题,同时还存在高光和阴影干
汽车作为一种大众消费品早已进入千家万户,伴随着数量增加,安全驾驶的问题也变得越来越显著,其中危险驾驶行为给驾驶员和乘客都带来了极大的潜在危险和财产损失,由于危险驾驶行为具备隐蔽性和无意识性,需要借助辅助设备进行疲劳驾驶检测,故本文提出了综合多因素的驾驶行为评判标准,在一个网络框架下实现了多任务的融合,实时准确且便于移植,该系统的应用对于驾驶员的安全驾驶,智慧城市的推进都具有重要意义。现阶段的危险驾
肺癌是目前所有疾病中对人类威胁最大,却极难治愈的肿瘤疾病之一。及早发现和尽快治疗是当下仅存的防治肺癌最奏效的措施,肺癌在发病初期主要的表现形式是肺结节,医生可以通过对胸部CT的观察和分析对早期肺癌进行及时诊疗。然而,随着肺部CT图片数量的激增,单纯依靠人工从大量CT图片中进行筛查、判断几乎是不可能的。基于深度学习的计算机辅助系统能够对CT图片进行初步的选取处理,可以大大减轻医生负担,降低医生误诊、
阿尔茨海默病(Alzheimer Disease,AD)以及注意力缺陷障碍症(Attention Deficit Hyperactivity Disorder,ADHD)等神经性疾病深深的影响着每一位患者的健康,该类神经性疾病起病比较迟缓,不容易被诊断出来,如果能够在早期及时的发现,则能够在很大程度上降低该类疾病晚期的发病率。人脑磁共振(Magnetic Resonance,MR)图像中的解剖结构
从时空数据中挖掘模式在人类出行行为、智能交通、城市规划和生态研究等方面有着重要的应用。信息化城市建设的一个重要问题是如何从海量的轨迹数据中挖掘出频繁轨迹序列模式进行定位感知和基于位置的服务(location-based services,LBS)。传统的轨迹序列模式挖掘算法由于挖掘过程中会产生大量中间子序列,严重影响算法收敛速度和挖掘效率。另外,随着定位技术的飞速发展,时空数据的获取越来越广泛,数