汉老双语平行句子相似度计算方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:lovepengchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子的相似度是指两个句子的相似程度,句子相似度的计算在人工智能大火的如今也受到了很大的关注,例如在问答系统中,检索对话中相似句等自然语言处理的方向中,句子相似度计算起着至关重要的作用。平行语料库的构建,是双语机器翻译的基础,在此基础之上,可以进一步进行双语的其他研究。双语平行语料库的建立也是许多自然语言处理研究的重要基础资料。作为翻译的研究重要前提,双语句子平行语料库的建立无疑成为了重中之重,而双语句子相似度的计算是构建平行语料库的基础。平行语料库的好坏与否,直接影响到了后面语言研究的效果。目前,老挝语的自然语言处理过程当中,语料问题是亟待解决的一个问题,老挝语与中文的研究目前还处于初级阶段,本文基于这样的一个实际情况,通过研究如何使用光学字符识别(Optical Character Recognition,OCR)方法获取老挝语语料,并在原有人工收集以及网上爬取的老-汉双语语料的基础上,利用深度学习的方法研究老-汉双语句子上下文信息以计算出双语句子相似度,最后在已有的上下文信息中,融入老挝语与中文中一些特征,进行双语句子相似度的计算。具体研究内容如下:(1)光学字符识别的老挝语语料获取目前,世界范围内光学字符识别(Optical Character Recognition,OCR)技术的研究主要是针对中文、英文等主流语种,本文针对老挝语纸质资料人工数字化录入过程中速度较慢,精确度受录入者水平影响的问题,提出一种基于卷积神经网络的老挝语印刷体光学字符识别方法,根据数字图像技术、卷积神经网络技术,根据老挝语语言特征,实现老挝语印刷文本字符识别的技术,以此方法来获取语料。(2)融入上下文及共现词的老-汉句子相似度计算本文通过现有的数字语料提出了一种基于孪生网络(Siamese network)的老-汉双语句子相似度计算方法。并神经网络层使用Bi-LSTM算法来构建孪生网络,共享参数,分别对中文和老挝语进行训练,得到句子的语义特征,并在最后将两个网络得出的向量进行距离向量的计算,最终输出为句子与句子之间的相似度。在通过Bi-LSTM得出上下文信息的相似度后,结合句子中的共现词信息,来增加计算结果的准确率。实验证明,该方法能有效地计算老-汉双语句子相似度。(3)融合句长、共现词、词汇信息的老-汉双语句子相似度计算当前,老-汉双语语料存在比较匮乏的情况,在单纯通过Bi-LSTM算法的自动提取上,仍然受到很大的限制。为了进一步提高计算句子相似度的准确率,本文在孪生网络的基础上,进一步对老挝语以及中文句子进行分析,结合句子中的共现词特征、句长特征以及词汇特征进行汇总,通过特征融合的方式来达到提高计算结果得效果。
其他文献
十九届中央纪委四次全会提出,要在更大范围整合运用监督力量,提升基层纪检监察机关监督能力。泰顺县纪委监委深入贯彻落实四次全会精神,聚焦农村基层痛点难点堵点,积极探索创
2020年春节期间突发并快速蔓延的新型冠状病毒(COVID-19)引发的肺炎疫情,给我国带来了一场严重的公共卫生危机,广大人民群众的生命健康安全遭到了严重威胁,在党和政府的领导下,我国采取了延长春节假期,推迟复工复产,外来人员隔离等一系列疫情防控措施来尽量减少人员流动以降低传染的风险。随着复工复产的逐步开展,在保证公众基本生活和工作活动的基础上,如何继续有效实施以人员个体管控为主要手段的疫情防控措
心源性猝死居猝死发生率之首,除了心血管疾病等因素之外,抗精神病药物引起心血管损伤致心源性猝死也时常发生。在法医学司法鉴定案例中,因部分猝死案例有抗精神病药物服药史,
消费是促进我国经济增长的重要驱动力,因此,不断释放居民的消费能力,提高居民的消费倾向是促进我国经济发展的需要。研究表明,影响居民消费能力和消费倾向的因素很多,如居民
我国西南地区的农耕民族自古以来就用他们辛勤的劳作和生动的创作给这片广阔的土地留下了许多宝贵的文化遗产,岩画便是其中杰出的代表。西南岩画以其独有的神秘、质朴、生动、粗犷等艺术特色吸引着大批学者不断地探索与研究。近年来,关于西南岩画的研究逐渐增多,选材角度各不相同,但关于岩画艺术风格整体性研究较少。西南岩画作为人类的珍贵遗产,对其艺术风格有一个整体性研究具有重大的文化价值和审美意义。它不仅是先民表达自
应用GRAPES(Global/Regional Assimilation PrEdiction Sytem)中的Goddard短波辐射方案(Chou M D,Suarez M J.1999)创建了紫外线数值预报系统(GRAPES-UV)。本文介绍了Goddard
近年来,互联网企业的地位得到了持续稳定提高,他们不断探索新的业务,部分企业已将触角伸到了零售行业,因此,传统零售业不得不面临转型。为顺应当前零售业态发展趋势,苏宁易购将“智慧零售大开发”作为公司的目标战略,在该战略的指引下,苏宁易购进行过多项战略性投资,但是这些战略性投资活动出于什么动因,为企业绩效带来何种影响,近年来没有系统的研究。本文旨在通过分析苏宁易购,得出与战略性投资相关的一系列结论,来为
本文研究的对象以经过考古发掘出土的高句丽和三燕马具为主,极少数为马具征集品,同时参考了墓葬壁画中图像资料以及历史文献中的相关记载;研究内容主要包含以下几个方面:一,通过对高句丽和三燕考古资料的搜集和整理,介绍马具实物的发现概况。二,对高句丽和三燕马具进行类型学分析;将马具分为四类,即乘马具、驭马具、护马具和装饰品,在分类的基础上对高句丽和三燕马具实物进行类型分析。三,根据马具特点进行分期;高句丽马
  汽本文主要根据三踏板相关法规,并结合汽车设计经验,运用Ramsis软件,建立驾驶员人体模型,通过模拟驾驶员在驾驶时的各种真实操作、坐姿,用以分析人体处于各种姿态时,各关节舒适
特高压直流输电工程可实现我国电力能源的跨区域高效输送,对改善我国能源分布、促进经济社会发展具有重要意义。同时特高压直流输电线路电磁环境问题也引起了广泛关注。目前