论文部分内容阅读
近年来,自然语言处理的相关技术研究中,基于统计的研究方法占据了主导,基于实例和统计的翻译方法为机器翻译技术提供新的研究思路。对于机器翻译领域来说,语料库是机器翻译统计学习不可或缺的基础。特别地,双语语料为机器翻译和跨语言检索等自然语言处理领域提供基础的资源,大规模的双语语料库资源能够明显的改进机器翻译技术的质量。同时,语料库中的翻译知识获取,可以细粒度的挖掘翻译词典和模板。经过多年来飞速的发展,互联网上的信息剧增,海量的互联网网页资源中包含了大量的双语翻译资源,且Web网页的实时性和多样性等特点,相较于其他来源的语料,互联网的双语翻译资源时效性强,覆盖领域广,资源数量大。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建立一个面向互联网基于Hadoop分布式计算平台的双语语料采集系统。本文首先介绍Hadoop分布式技术:MapReduce并发计算模型和HDFS分布式文件系统,并且对网页爬行器的任务调度算法、信息去重、网页更新识别等关键技术进行了分析,论述了爬行器性能和效率的瓶颈,在此基础上设计实现了基于Hadoop的面向Web的大规模、多语言的网页爬行器和面向双语网站的增量式爬行器。然后,本文介绍了一种基于互联网词典的元搜索获取双语平行句对的方法,最后,基于抽样检测对互联网上双语翻译资源规模进行了估计,并论证了其正确性。本文的意义在于提出了从Web上大规模采集双语语料资源的方法,并且实现了基于Hadoop分布式计算框架的双语语料采集系统,能够从全网范围的进行高效的网页采集,探测出双语站点,在双语网站范围内进行增量抓取,从而构建出一个大规模双语平行语料库,对机器翻译领域的研究提供了大规模语料库支持。另外,本文特定针对双语站点的网页更新规律进行了研究,最后通过设计实验,对Web上可能存在的双语语料资源进行了一个估计,对双语语料采集技术的相关研究有一定的指导意义。