基于词典的汉藏句子自动对齐

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:xxxmmm1236
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理的许多研究都是从大规模的语料库提取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。双语语料库含有两种语言之间的互译对照信息,对于这两种语言之间的双语自然语言处理具有极其重要的研究和应用价值。双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。   本文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子自动对齐。藏文的分句问题是句子对齐首先要解决的问题,在统计实验的基础上对藏文分句问题进行了探索性研究,论文中结合句尾词、句首连词以及句子长度信息来判断藏文句子边界。根据藏文的数词组成规则,实现了对藏文文本中数字编号的切分。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。汉藏句子对齐遇到的另一问题是汉语与藏文的分词粒度不同,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。并对所使用算法进行了效率优化。本文的目的在于建立一个实用的汉藏双语句子对齐工具,并利用此工具对汉藏双语语料库进行处理。实验结果说明,本文的方法建立的汉藏双语句子对齐工具具有重要的实用价值和研究价值。
其他文献
在线社会网络(Online Social Network,OSN)作为一种新型的Web体系结构,近年来得到广泛的使用。人们使用OSN实现了数据的分享(日志、照片、视频等)和社会关系的维护(通过给朋
中文文本正则化(Text Normalization)是把非汉字字符串转换为汉字字符串以确定其读音的过程。文本正则化在语音合成、语音识别、机器翻译、主题检测、文本挖掘等领域有着重要
近年来嵌入式产品发展如火如荼,在嵌入式系统芯片领域以ARM体系结构为核心的系统芯片长期占有着巨大的市场份额,与此同时PC领域的霸主x86处理器也开始进入嵌入式系统芯片领域
虽然带钢表面质量检测技术获得了越来越广泛的应用,但是其中一些关键的技术问题仍没有进行有效的解决,例如:带钢表面低对比度缺陷的检测率较低(低对比度辊印、粘结缺陷等),不
随着在线社会网络用户数目激增,在线社会网络的隐私问题也越来越突出。本论文着眼于在线社会网络中的隐私推测技术,以Facebook社会网络为研究对象,提出了在线社会网络中的隐私推
XML(可标记扩展语言)数据具有半结构化、自描述性等特点,相对于关系数据来说,XML数据具有更大的灵活性和可扩展性。如今,XML已经成为互联网上数据表达和信息交换的标准。同时,XML
行业应用软件是软件体系中的重要组成部分,也是中国软件产业发展的一个非常好的机遇。但是随着软件产业的不断发展壮大,行业应用软件系统的规模日趋庞大,软件的功能也日益复
随着图书数字化和网络技术的发展,数字图书馆(Digital Library,DL)拥有的数字资源和提供的应用服务越来越丰富。数字图书馆的内容特征是数字化信息,结构特征是不论其资源组织或
分布式异构数据的集成是信息化建设所面临的关键问题。随着应用需求的增加,企事业单位内部构建了多个信息系统,它们构建于不同的操作平台,采用不同的存储结构和信息表示方式,
随着互联网技术的发展,网络已经渗透到人们生活的各个领域。社区网站、SNS、博客、微博、电子商务、P2P文件共享等网络应用极大的方便了人们的生活,使网络成为生活不可分割的一