基于Web论文库的学术领域双语资源研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:YANYUGUOHOU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问题:如何获取双语资源?如何对双语资源进行加工处理?如何使用双语资源构建应用?本文基于学术领域双语资源对这三个问题进行了探讨和解决。基于Web论文库获取学术领域双语资源是一种自然而然的方法。本文设计并实现了Web论文库爬行器,对Web论文库进行增量爬行,高效地获取学术领域双语资源,从而构建动态更新的学术领域双语资源库。接着探讨了如何在获取到的学术领域双语资源库上进行句子对齐处理。本文实现了经典的基于统计的句子对齐算法,并对算法进行了一系列改进,包括断句不采用冒号为边界、选用更好的句对评价函数、结合学术领域双语资源自有的关键字信息、增加处理的匹配模式等,显著地提高了句子对齐算法的准确率和召回率。经过句子对齐处理的学术领域双语资源库采用xml文件的格式组织存储。最后,本文尝试在学术领域双语资源库上构建基于短语的统计机器翻译系统,证实了学术领域双语资源的可用性。基于Web论文库的学术领域双语资源研究,对双语资源的获取、加工处理以及应用这三个问题的解决提供了一个新的思路。如何更好地解决这三个问题将是下一步的研究方向。
其他文献
基于内容的视频检索是近年来的研究的热点问题。随着多媒体技术的日益成熟,各种各样的视频应用层出不穷,传统的基于文本标签的检索已经不能很好的满足海量视频的检索需求,如
嵌入式系统是一个综合应用计算机技术、电子技术和软件技术的系统,嵌入式操作系统作为其软件平台需要适应不同的硬件环境和应用场合,这造就了它的多样性。源代码公开的嵌入式操
机器人位置伺服控制器是机器人控制系统的重要组成部分,对工业机器人操作手的控制精度、稳定性和实时性起着至关重要的作用。随着工业机器人应用范围的扩大,机器人的复杂程度和
随着传感器技术、微机系统、片上系统、无线通信技术的飞速发展,无线传感器网络被广泛应用于军事作战、交通控制、医疗卫生、环境监控等各种领域,并且迅速地成为网络领域中研
随着信息技术的发展,计算机技术在教育测量、测试中的应用越来越广泛。以信息技术为基础的计算机化测试,对于提高测试质量和公正、客观、准确的评价测试群体、控制测试误差,
生物信息学、社会网络、web分析等方面的发展积累了大量的复杂网络数据信息,及时快速的挖掘出这类数据中的社群结构已成为数据挖掘领域一项重要的工作。传统算法在对社群定义
随着计算机技术,特别是计算机网络化的迅速发展,网络服务的日益增多,敏感信息通信的普遍化。信息的保密性,完整性及可用性已受到学术界的高度重视。信息安全也成为信息科学领域研
网络安全问题越来越受到人们的关注,为了解决网络攻击的简单化和网络防御的复杂化之间的矛盾,网络安全研究开始由单纯的被动防御向主动防御转变,将网络犯罪行为诉诸法律就是主动
信息技术的飞速发展加快了信息的创建和传播速度,使人们能够更加自由的进行知识的分享和交流。但是海量信息的存在也产生了不可忽视的负面影响-信息过载。搜索引擎等信息检索
信息可视化技术自上世纪90年代中期出现并兴起后,正从根本上改变着人们表示、分析和理解大型复杂数据的方式。而多维数据的可视化作为该领域内的经典问题,一直备受研究者的关