一种藏汉句子自动对齐系统的研究与实现

来源 :西藏大学 | 被引量 : 0次 | 上传用户:lxj13050621544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,双语平行语料库的重要性日益加强,其研究主要集中在构建、对齐和标注等方面,在机器翻译、词义消歧以及跨语言信息检索等研究领域中具有重要的实际研究意义。  双语平行语料库有多种组织形式,如篇章一级、句子一级、词汇一级等,其中篇章一级最容易获得,但用处不大。从篇章一级的双语文本中自动获得句子一级的双语语料库是双语句子对齐的过程,也是进一步找到词语间对应关系和获得其他翻译知识的基础。本文对双语句子自动对齐的相关技术理论进行了深入细致的分析研究,针对藏汉语言的特殊性、翻译标准的不一致性和藏文资源的不足等因素,把藏汉句子对齐问题转化为其实词之间的匹配过程。选择了适合于藏汉语言特点的句子对齐算法,并实现了藏汉句子自动对齐系统。  本论文的研究主要包括以下几点:  1、藏文文本分词。首先针对目前藏文编码和书写格式的杂乱无章,对文本的编码、格式进行统一化、规范化自动处理,使得系统能够处理更多的藏文文本;其次,在已有的研究基础上,充分利用藏文语法信息,详细设计并实现了藏文自动分词系统,经测试表明,分词准确率可达到96.2%,有利于句子对齐研究中获得相关词汇信息。  2、藏汉文本预处理。为了句子对齐问题简化为其实词之间的匹配过程,首先对藏汉句子的语法结构特点进行了研究和探索,其次,对两种句子相互对应的规律进行了归纳与总结,最后,对藏汉文本进行分句、分类和提取固定词汇(实词)的预处理。经实验表明,藏文文本分句的准确率达到94.2%,句子分类的准确率达到88.05%,句中提取词汇的准确率达到93.8%;汉文句子分类的准确率达到90.1%,句中提取词汇的准确率达到97.1%。为藏汉句子自动对齐研究提供了技术保障。  3、句子对齐。在文本预处理的基础上,首先对藏汉句子进行长度相似度和词汇相似度计算,并以两者之和(评价函数值)为藏汉句子的相似度;其次,在动态规划框架下,每两个句子按8种对齐模式计算其评价值,最后寻求最优对齐路径,该路径上的句对为最终结果。从而完成了句子对齐的整体过程。经实验表明,对齐准确率可达到90.06%。在藏文自然语言处理研究领域具有一定的应用价值。
其他文献
杜甫是我国古代伟大的现实主义诗人,是诗歌史上自《诗经》《楚辞》以来诗集版本最多,注本、评本最多的诗人。杜甫留下了许多广为流传的诗歌,无论是对于学习者还是研究者,都具
欧盟卓有成效地提出了e-Safety一代汽车安全创新计划及其推荐方法,使欧盟为实现不断加严的法规大大推进了防止/减轻交通事故发生的技术研发。 The EU has effectively put f
在浩如星海的中国艺术天空中,有一颗耀眼的明星格外引人注目,他那坎坷的经历充分诠释着人生的艰难与不易;他那傲岸不羁的个性透露出中国知识分子对自尊、自由的永恒追求;他那卓越
图像处理技术在现代生活中应用越来越广泛,其核心部分是图像分割技术.图像分割的方法有很多,本文重点研究了基于色彩的图像分割技术,借鉴前人的经验和参考数据,通过不断的测
期刊
本文从“第一时间”“第一现场”“微信先行”“多元生成”“梯次发布”“舆情分析”“网络打假”等多个视角,对中国中医药报“屠呦呦荣获2015年诺贝尔奖专题”的立体报道进
随着科学技术的快速发展,各种信息化传媒技术的相继出现并普及,标志着新媒体时代的到来,开启了全新的信息时代。新媒体时代,传统媒体受到了巨大的冲击和挑战,传统新闻媒体必
高校计算机实验室是高校信息化建设的重要部分.提高信息化程度,推动实验室管理向信息化、智能化、集中化发展,可以解决实验室管理中存在的很多问题,提高管理效率,降低工作强
小学语文教材中包含着许多文质兼美、意蕴深远的文章,或是对真、善、美的赞扬,或是对人物高尚品行的讴歌,或是对祖国大好河山的赞美……无一不是作者思想感情的宣泄,其间蕴含
范扬先生在当代中国画坛富有盛名,从1984年创作的大幅主题性作品《支前》获第六届全国美展铜奖开始,几十年来,他在艺术上激情涌发,以开阔的思想观念不断探索,笔耕不辍。他的