基于Web的中越双语平行语料自动获取技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:yahved
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的统计机器翻译的发展,由于其对大规模平行语料库的依赖,还主要集中在平行语料库相对容易获得的英法、英汉等语言之间。由于获取途径的限制,即使像英语,汉语,法语这些常用的官方语言间的对照语料,得到的平行语料库就算是有一定的规模,也多半都是很不平衡的,主要都是政府性或新闻性的题材,其他专业领域的平行语料库则少之又少,至于其他一些国际上不常用的语言间的平行语料库,即使是这种非平衡的资源也很难获得,对于目前尚不成熟的中越两国语言的平行语料,此种问题则更为突出。本文致力于构建一个基于Web的大规模中越双语平行语料库自动获取系统。取得主要成果有以下几方面:   1.提出基于图片链接信息对齐URL无命名规律的中越双语平行网页的算法   目前主流的中越双语平行网站的URL命名无规律性同时又含有大量附图链接并且链接所指向的网页含有丰富的中越双语平行语料资源这一特性,通过提取以上双语平行网页以及目前主流网站的附图链接的网页的HTML源代码并对其附图链接的代码部分进行详尽的结构比较、分析,发现了所有网站在附图链接源代码上的一个统一的固定结构,并成功实现抽取这一固定结构及其中的图片链接信息和对应候选平行网页URL的算法,从而成功实现利用双语平行网页的图片链接信息相同的这一特征来对齐中越双语候选平行网页的方法,从而可以找出尽可能多可信的中越候选网页对。   2.对基于句子长度、词汇的对齐特征抽取进行对应中越双语的适应性改进   基于中越两国语言的渊源关系以及在句子长度、词汇互译上的相似之处,本文在现有中越双语平行语料库的基础上对中越双语平行句对的句子长度进行了科学统计,总结出了长度比例、概率分布、拒绝域的重要句子对齐特征;基于现有尚不成熟完善的汉越双语词典提出了引入《哈工大信息检索研究室同义词词林扩展版》进行越汉词典的词条扩展、合并本来不应被切分开的词语、互译词汇查找的模糊匹配,三种处理策略,显著提高了中越双语平行句对的词汇匹配率,同时,通过对以上处理策略的数据收集、统计,为多语种项目日后的汉越词典的完善、翻译概率的训练提供了重要数据资料支持以及行之有效的途径和方法。
其他文献
模式识别技术目前已发展成为一门强大并且有旺盛生命力的学科,该技术目前已被广泛应用于工业、军事、农业、生物医学等各领域,自动完成对不同对象的智能识别,且识别误差率较
随着无线网络的不断发展以及无线流媒体应用的风靡,各种无线流媒体系统应运而生,在该背景下,实验室自行开发了适用于无线环境下的流媒体系统CWMS(Clear Wireless Multimedia
制造网格平台集成了众多制造企业的资源,并实现资源的全面共享。在制造网格环境中,节点间的交互行为主要分为请求资源和提供资源共享两种。如果能通过节点问交互行为的成败来
无线传感器网络的资源受限,因此如何在无线传感器网络中实现低能耗的可靠传输显得尤为重要。协作通信是一种虚拟的MIMO技术,结合了分集技术和中继通信的思想,可以提高通信的
网络带宽的增加使得互联网上的多媒体应用成为可能,并得到了广大用户的喜爱。但是由于多媒体文件,尤其是视频文件太大,多媒体数据在传输时,文件服务器带宽成为整个系统的瓶颈
信号在水声信道中的传递受多径干扰的影响十分重大。对水声信道影响较大的几个因素是:水声信道参数、传播损失和多普勒频移。尤其在水深较浅的区域,直达声和反射声混合形成复
传统的机器学习的研究中往往倾向于将有标签的数据和无标签的数据分开研究,但是在现实生活中,这两种情况往往是并存的。半监督学习便由此应运而生,在传统应用中往往将半监督
研究表明,我们肉眼所看到的自然界众多图像中,其所传达的情感语义都十分丰富,或清爽,或伤悲,或温暖,或恐惧。基于文本的图像检索系统出现最早,发展也最为成熟,它主要根据某些
文本是信息检索领域中数据的基本表示形式。如何从大量文本数据中分析和提取出有用信息,业已成为数据挖掘一个日益流行而且重要的研究课题。文本数据用向量空间模型表示时,由
学位