面向人物简历的汉维机器翻译研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:EAGLE1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大多数维吾尔族群众存在严重的跨语言交流障碍,随着丝绸之路经济带核心区建设的推进,研究维吾尔语文翻译信息化是促进各民族间交流交往交融的必要保障。现有的汉维机器翻译系统对于特定领域不适用,因此本文围绕人物简历信息,研究了汉语-维吾尔语机器翻译以及影响翻译质量的关键问题。简历信息主要包含命名实体,而命名实体是机器翻译常见的未登录词问题,易造成翻译质量不佳。为了获取汉维命名实体等价对,首先需要开展维吾尔文命名实体识别研究,而现有的研究主要集中在单一实体并且方法相对传统,本文开展了不同方法实现维吾尔文命名实体识别研究;然后在此基础上获取汉维命名实体翻译等价对以实现基于模板的汉维机器翻译系统。首先,为了有效利用未标注语料库中的无监督语义和结构特征,本文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法,通过引入词法特征、词典特征、以及无督学习特征,对比不同特征对命名实体识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能。其次,传统的方法未考虑到从字符间充分学习维吾尔语的形态信息,因此本文提出了基于注意力向量表示的维吾尔文命名实体识别方法。首先,在词向量的基础上引入使用双向LSTM获取的字符级向量;然后使用注意力机制将词向量和字符级向量进行结合来动态学习文本的特征信息;将基于注意力机制的向量作为Bi-LSTM的输入向量;最后通过CRF模型标注命名实体。实验表明,对于形态丰富的维吾尔语来说,基于注意力向量表示的Bi-LSTM-CRF模型相比于CRF模型在命名实体识别任务上性能更佳。最后,围绕人物简历信息,分析汉语的人物简历的句子结构,构建了汉维双语命名实体翻译等价对库和汉维人物简历信息的模板库,设计并实现了基于词典与模板相结合的人物简历汉维机器翻译系统。实验表明,该系统相比于依赖于大规模双语语料的机器翻译系统具有较好的实际应用价值。
其他文献
从论述保证灌注桩桩头质量重要性入手,分析得出影响灌注桩桩头质量的主要因素是:桩位偏移量,桩头标高,桩头砼的强度,笼径、笼位和笼顶标高,桩头粗度,提出了保证和提高灌注桩桩头质量
应用型本科院校要不断改革和创新财务管理教学思路,深刻认识到培养专业人才、提升综合素质、强化职业素养的积极作用,采取更加多元化的措施,在强化财务管理专业教学针对性、
对少年网球运动员来说,启萌教练对其正确指导,培训以及教练的优良作风和应具备的专业素质是至关重要的。就此问题对少年网球教练员在教学与训练过程,应具备的专项技术、理论
湖南某“煤矸石综合利用”项目,一期300MW超临界机组工程电厂年耗矸石、中煤及劣质煤94×10^4t,由邻近煤电一体化项目的黄兰煤矿及柳树选煤厂供应。根据煤源至电厂的厂外交
21世纪是文化的时代。当前,许多企业已经充分认识到企业文化的必要性和不可估量的巨大作用,开始了对企业文化建设的尝试。作为企业文化建设的第一步,企业文化测量的重要性凸
开展楼道文化建设是发展群众文化和社区文化的新内涵和新举措,为构建人文社区、文明社区、和谐社区注入了活力和动力,有着广阔的发展前途。通过各级领导的关心,举全社区之力,
胡颓子属植物果实里富含多种微量元素,作为第三代水果具有极大的食用价值和广阔的加工利用前景。为了解胡颓子属植物果实中微量元素的分布水平,从而为胡颓子属植物果实的综合
高校的内部审计质量控制必须适应新时代的要求,有效地利用有限的资金实施必要的工程。针对高校的建设工程特点,结合实践经验,就工程内部审计质量控制的特点进行了初步探讨。
为了研究青草沙水库原水中氮和磷的动态变化特征,在青草沙水库中选择了具有代表性的6个监测点,分别对氨氮、亚硝酸氮、硝酸氮、TN、DP、TP等营养盐指标进行动态监测,并分析了
广州亚运与区域非物质文化遗产之间存在着双向互动关系。一方面,广州非物质文化遗产为广州亚运提供了深厚的文化内涵;另一方面,广州亚运又为区域非物质文化遗产的传承提供了