论文部分内容阅读
进入九十年代以来,INTERNET以前所未有的速度迅猛发展,它正在深刻地改变着人们的生活方式。但是,互连网上的语言障碍却时刻困扰着我们,语言问题已经日益成为束缚INTERNET发展的最主要因素。 机器翻译在解决网上语言障碍问题上有着得天独厚的优势。市场上出现了许多网上在线翻译系统,它们通过内置的翻译引擎将网上的外文信息自动翻译成用户的母语,从而部分解决了INTERNET上的语言障碍问题;但是,由于机器翻译固有的困难性,目前这种完全自动的翻译系统还很难达到用户对翻译质量的要求,译文经常错误百出,难以令人满意。 解决网上语言障碍的另一种办法是通过一些翻译机构,他们定时下载一些外文页面,经过专业翻译人员进行翻译之后再将译文上载。这种方法能够保证译文的质量,但是翻译完全是由手工完成,效率难以保证。 为了解决上面两方面的问题,我们提出了交互式多策略机器翻译(IHSMT)的思想。系统综合了以上两种方法的优点,提供了一套完善的人机互助的翻译机制,因而能够快速高效地得到较为准确的翻译结果。另外,在系统中集成了RBMT和CBMT两种翻译策略,实现了二者的优势互补。实践证明,本系统的翻译效果较之其它单一策略的系统有了明显提高。 本文以交互式多策略的思想为背景,主要对系统CBMT翻译引擎中模式库的设计与实现问题进行了探讨。 首先,提出了一种基于信息熵的属性相似度权值计算方法,使属性权值的设定具有很好的客观性,避免了主观设定权值带来的的不准确因素。 其次,提出了面向对象的分类模式库的思想,有效地对模式库进行了组织,方便了模式库检索,添加等操作的实现。 最后,提出了系统知识库的三种知识获取机制:手工添加,通过机译生成信息以及通过人工双语语料。本文着重对后两种知识获取过程进行了研究。并且,根据知识库的正确性和精练性的要求对模式的入库过程进行了探讨。