语音翻译词典的设计实现与系统评估

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ye77hao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
逐渐并最终扫除人类语言的障碍,使不同语言和文化背景的人能用母语自由交流,不再受语言不通的限制,这是人类的一大梦想。近年来,逐渐在国际上兴起的语音翻译技术将使这一梦想变成现实。通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。为了能够合理地覆盖真实的语言文本,语音翻译系统需要一部具有数十万条双语机译单元所构成的双语翻译词典,这就需要设计算法从双语文本中自动提取大规模双语翻译词典。 本课题为语音翻译系统中机器翻译的重要组成部分,随着语料库语言学的兴起和机器学习技术的发展,通过机器学习从语料库中自动或半自动获取语言知识和翻译规则,从而实现机器翻译,成为机器翻译的新的突破点。我们在前人研究的基础上,继承了他人研究的优点和长处,改进了一些缺点和不足,创造性地提出了新的算法,构建了适用于语音翻译系统的大型翻译词典原型。 本课题运用了释义词典信息、词根信息、共现概率信息和上下文搭配差异信息等等,并结合阈值和关联度提取的方法,结合中文和口语的特点,依次完成了一词对一词、一词对多词和多词对多词的翻译词典的构建。此外,我们还通过应用多个关联度参数及交换源语言和目标语言的相互关系得到多个翻译词表,进行词典分级,有效地提高了高级别翻译词典的正确率。另外,为了满足超大规模翻译词典构建的需要,我们提出了一个改进提取算法,可以同时覆盖单词单元和多词单元,并使得翻译词典可以在语音翻译系统中直接用于翻译单元替换。 最后,我们对翻译词典的三种通用算法及改进算法进行了性能评估,给出了实验结果及对结果的分析,针对还需要继续研究的问题提出了一些解决的方法。
其他文献
目前,列车朝高速化、自动化方向发展已经成为必然的趋势,集列车控制、故障诊断以及旅客服务信息处理于一体的列车通信网络是高速电力列车上控制系统的关键技术,符合国际标准
面对日益丰富的网络信息资源和多元化的服务提供方式,在多数情况下都存在大规模的数据传输情形。这样,对于信息的传输机制提出了新的挑战,而其中的信道编码是很关键的一环,需要同
多输入多输出(Multiple-Input Multiple-Output, MIMO)系统是近年来在无线移动通信研究中的一个重大突破,它扩展了一维智能天线技术,通过在发送端和接收端分别安置多副天线来
随着信息技术和网络技术的飞速发展,各个应用领域的管理和经营模式都发生了巨大的变化.在金融领域,银行信息系统达到了前所未有的互连互通,人们在各行业的消费已经开始逐步归
IP电话是通过国际互联网络(Internet)来传输语音信号的通信设备,由于它具有节省通信带宽和通信费用等优点,因而备受关注。 本文介绍一种基于数字信号处理器(DSP)技术的IP电
在现代信息化战争中,最大化的对敌信息优势已成为赢得战争胜利的重要保障。可靠的网络系统是保证信息优势的关键,网络中心战这一概念的提出表明网络系统在战争中的地位越来越重
多卫星星地扩展频谱通信系统中,直接扩频序列有着举足轻重的重要地位。其相关性的优良直接影响了码分多址(CDMA)通信系统的容量即允许接入的最多用户数。因此从实际多星星地通信
随着计算机网络和应用的迅速发展,特别是电子银行、电子商务的兴起,网络安全问题也日益突出起来.文章分析了计算机网络安全现状,讨论了传统的安全措施及其局限性.动态网络安
自适应数字波束形成(ADBF)技术可显著提高阵列天线的性能,诸如快速自适应波束置零、超低副瓣、密集多波束、高分辨测向和通信信道容量提高等等。因而是雷达研究的重要方向。
在现代移动通信中,无线信道的衰落效应严重制约了通信系统的性能,因此克服信道衰落效应,提高系统频谱利用率是个非常重要的研究问题.近年来,多载波码分多址技术由于支持高速