基于图匹配的老-汉双语平行句对抽取方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:flscut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中老两国关系的扩大和深入,加强汉语-老挝语之间的学术研究具有十分重要的现实意义。在自然语言处理任务中,平行语料库为统计机器翻译的模型提供了必不可少的实验数据,而平行句对的获取是构建平行语料库的关键部分。互译的双语文本在篇章、段落上几乎是彼此对应的,因此对齐的重点就集中在句子对齐和词对齐上。本文主要依据老-汉双语句子相似度值进行句对齐,借助二部图的最佳匹配获取严格意义上的1:1形式、相似度较高的老-汉双语平行句对。主要研究成果如下:(1)基于互译特征词对匹配的老-汉双语句子相似度计算由于本实验室整理得到的平行语料和互联网上得到的双语文本几乎都是段落和篇章对齐的,此时就需要将语料整理成需要的句对齐格式。针对老-汉双语语料库中的对齐块(段落对齐或篇章对齐),提出了一种基于互译特征词对匹配,并结合构建的老-汉双语相似词典来计算句子相似度的方法,用来最终识别相似度较高的老-汉双语平行句对。每个词对都有对齐的先验概率,通过计算互译特征词对的匹配值来评价最终句对的相似度,这样对齐过程中便可以依据相似度来进行,将相似度较高的、符合一定条件的老挝语和汉语句子进行对齐,精简句对齐的流程。实验证明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。(2)融合多特征的老-汉双语句子匹配值计算人名、地名作为未登录词被视为老-汉双语文本对齐的重要特征,但却无法用老-汉双语词典直接进行互译匹配,导致翻译时存在混乱、随意和不统一等问题。本文通过大量的问卷调查并经人工鉴定后,提取出汉语-老挝语人名、地名特征,总结出人名、地名音译规则,构建了一定规模的汉语-老挝语人名地名词典,经验证适用于大部分老-汉双语人名、地名之间的互译,翻译的质量较好、拓展性较强。同时提取老-汉双语数字特征,与人名、地名词典条目融合后,计算出汉语-老挝语人地名与数字特征匹配值。借助双语文本长度标准化变量?来较准确地预估老-汉双语句子长度特征匹配值。此时将第一部分的互译特征词对匹配值、此部分人地名与数字特征、句子长度匹配值进行多特征融合,分配各特征值权重,最终计算出老-汉双语的句子相似度值。实验证明,进行多特征融合后又一次提高了老-汉双语句子相似度计算的准确率。(3)基于图匹配的老-汉双语平行句对抽取方法研究本文抽取的平行句对是严格意义上的1:1形式的句珠(即平行句对),若仅用遍历,会存在两个或多个老挝语句子对应同一个汉语句子的情况,且不能保证权和最大、匹配最好。经过多特征融合后计算出老-汉双语句子的相似度值,此时可以将相似度值作为连边权值,多个老挝语句子和汉语句子作为图顶点,借助二部图将老-汉双语句子对齐转化为寻求二部图的最佳匹配问题,得到严格的1:1句珠。实验结果表明,相比于SVM下的多特征融合和其他学者的方法,本方法在一定程度上提高了老-汉双语平行句对抽取的准确率。本文首先计算互译特征词对的匹配值、其次融合多特征计算出老-汉双语句子相似度值,最后利用二部图最佳匹配算法得到严格意义上1:1形式的老-汉双语平行句对,实验表明,本文方法一定程度上提高了平行句对抽取的准确率。
其他文献
蒙亚啊铅锌矿床中矽卡岩发育良好,前人通过研究确认该矿床为典型的层控矽卡岩型铅锌矿床,但是矿床中的矽卡岩研究还有不少欠缺。包括矽卡岩岩石学特征、矿物特征,典型矽卡岩
可移动电子产品的快速发展对低廉锂离子电池的需求更为迫切。在锂离子电池体系中,正极材料对电池的性能有决定性的影响。尖晶石型Li4Mn5O12正极材料具有原料来源丰富、成本低
当前,国家大力提倡素质教育,要求各学校、各教师要不断促进学生德、智、体、美、劳全面发展,提高学生的综合素质,让其成为具有先进思想的社会主义接班人。因此,对大学生进行
在生产、生活中聚合物材料对于我们具有重要的作用,而被称为是一种“绿色材料”的就是脂肪族聚酯,由于其具有良好的生物相容性、生物可降解性以及安全无毒,在医药方面应用广
2018年,根据《深化党和国家机构改革方案》要求,河南省L市国家税务局、L市地方税务局全面合并,L市税务局挂牌成立。此次改革对原税务部门传统的税收征管模式及纳税服务工作造
建筑容易受空气中水分的影响产生霉变、开裂等现象,这在降雨量高、空气湿润的地区中尤为常见。一旦出现霉变开裂等现象,不仅影响室内空气质量,还会影响建筑美观,增加维护成本
活性蛋白质是构成生命的基础物质,它的特异性检测一直是化学生物学的重要研究内容。荧光探针具有灵敏度高,选择性好,所需样品量小,可实现无损伤检测等优点而得到广泛应用。四
锂离子电池自上世纪九十年代问世以来,已广泛应用于人们的日常生活中。由于锂离子电池的使用寿命有限,废旧的锂离子电池数量在持续增长,如果不得到及时的处理,随意丢弃废旧锂
多智能体系统环绕控制是分布式协调控制问题中的一类重要问题,环绕控制的实质是用一组智能体去包围目标,并在其目标周围形成圆形编队。因此,在军事和民用等领域有潜在的应用价值,被广泛用于目标诱捕、攻击或者保护。本文针对多智能体系统研究了有限时间下的环绕控制问题,在给定通信拓扑条件下,其信息交互拓扑具有联合生成树,设计了分布式目标中心估计器和环绕控制协议,使得每个智能体仅利用其邻居和目标信息来更新自身状态,
随着在线社交网络产生的数据呈指数增长,对社交网络数据的分析在推荐算法研究中显得越来越重要。然而目前大多数推荐算法存在以下两个问题:第一,稀疏数据严重影响了推荐算法