汉老双语命名实体识别及对齐方法研究

来源 :昆明理工大学 | 被引量 : 5次 | 上传用户:panzhengdang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在老挝语文本中,存在大量的人名、地名、组织机构名等专有名词,这些命名实体蕴含着大量信息,通过命名实体能够了解文章的主要内容,是正确理解老挝语的基础。与英语、日语等语言相比,使用老挝语的人数较少,而且老挝国内互联网技术起步较晚,导致语料资源的极度匮乏。这也为老挝语和汉语之间跨语言信息处理增加了极大的难度。对于命名实体的研究,在英语、汉语、泰语等较大规模语言中的研究已经比较深入。但对老挝语这种较小规模语言的研究还很少。对于老挝语命名实体的深入研究,对老挝语自身语言分析和老挝语-汉语之间的翻译,都有着重要作用。针对以上现状,本文提出了以下研究内容:首先研究了一种融入词向量的条件随机场老挝语命名实体识别方法。分别将词向量、词向量聚类作为特征加入条件随机场中进行老挝语命名实体识别,并将词向量做出改进,提出加权词向量。通过实验证实,将词向量作为特征融入条件随机场能够提高命名实体识别的性能。其次研究了一种基于多特征融合和支持向量机模型的汉老双语命名实体对齐方法。在双语命名实体对齐研究中,首先从双语语料中识别老挝语和汉语命名实体,使用多特征对命名实体进行匹配,包括音译特征、翻译特征、同现频率特征和互信息特征。通过调整特征权重来达到最好的效果。本文使用两种方法来过滤命名实体等价对:一种是阀值限定的方法,将汉老命名实体对特征融合后得到的分值进行过滤,设定一个阀值,通过阈值过滤明显错误的命名实体对,并且提高系统的综合性能;另一种方法是采用支持向量机作为汉老双语命名实体的对齐模型,该方法是对候选命名实体对进行二值分类。在特征的选取上,使用命名实体对抽取使用的四个特征,这个方法可以综合考虑各个特征的分布来确定是否是正确的命名实体等价对,准确率高,且能够提高系统的性能。最后通过以上研究内容,生成汉语-老挝语双语命名实体词典,设计并实现了汉老双语命名实体翻译系统。
其他文献
如东县乡村小学语文教师骨干教师培育站主持人傅贵成:$$走向红玉的琼台$$很喜欢鲁彦《听潮》中的一段话“……远处灯塔上的红光镶在黑暗的空间,像是一颗红玉。它和那海面的银光
报纸
以精神形态存在的隐性文化是高校文化的核心和灵魂。营建优质的高校隐性文化代表高校发展的新趋势,反映了高校的核心竞争力。高校隐性文化的建设必须以人为本、以科学发展观为
目的了解尿结石患者碎石标本中L型细菌的感染情况,为临床术后抗感染及预防尿结石复发提供科学依据。方法收集2015年10-12月该院265例泌尿系结石患者标本,分别进行普通细菌及L
技术措施与技术措施权不同,前者为技术,后者是因完成作品或制品而产生的法律权利。文章从复制说、接触说、间接说三个角度论证了技术措施权的著作权性质。同时认为技术措施权归
在近代社会变迁的历史过程,东南沿海与内陆地区、经济基础与政治建筑以及知识分子人与下层民众节节脱散,深刻地说明了百年以来的近代化是一种扭曲的近代化。
以某电厂660MW机组的一次风机为例,试验研究了动调轴流风机叶顶间隙对实际失速线的影响。研究表明,叶顶间隙过大会使风机的实际失速线与其理论失速线存在较大偏差,实际失速线
多维经典风险模型是将经典风险模型由一维推广到多维,从而为保险公司等金融机构进行风险评估、风险计量和风险管理提供更全面的信息.它的提出丰富了破产论的研究内容,具有更
青冈镇作为北方的一个工业城镇,主要消耗能源为煤炭,用于供热耗能和工业耗能。城内大气环境质量较差,在冬季更甚。如何在保障经济、生活正常进行的前提下改善青冈镇大气环境质量已成为当务之急。识别青冈镇燃煤烟气主要污染源及主要污染物。根据地理分布、污染源最大落地浓度距离确定环境敏感点。选用AERMOD大气预测模型对主要污染源进行大气环境质量预测,分析城镇环境空气质量变化规律。青冈镇有4个产业园区,园内有众多
首先阐释了质效型电子政务运维管理体系的由来、体系特征和主要内容,认为该管理体系的组成要素有"服务对象、运维对象、运维组织、运维管控、运维过程、运维资源、运维标准、
在跨学科研究中,来自不同学科领域的研究成员,运用各自领域的知识与方法,解决一个共同的研究问题。跨学科研究合作越来越普遍,如何构建高效的跨学科研究团队成为一个重要问题