基于Hadoop的双语语料采集系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangtianmei03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理的相关技术研究中,基于统计的研究方法占据了主导,基于实例和统计的翻译方法为机器翻译技术提供新的研究思路。对于机器翻译领域来说,语料库是机器翻译统计学习不可或缺的基础。特别地,双语语料为机器翻译和跨语言检索等自然语言处理领域提供基础的资源,大规模的双语语料库资源能够明显的改进机器翻译技术的质量。同时,语料库中的翻译知识获取,可以细粒度的挖掘翻译词典和模板。经过多年来飞速的发展,互联网上的信息剧增,海量的互联网网页资源中包含了大量的双语翻译资源,且Web网页的实时性和多样性等特点,相较于其他来源的语料,互联网的双语翻译资源时效性强,覆盖领域广,资源数量大。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建立一个面向互联网基于Hadoop分布式计算平台的双语语料采集系统。本文首先介绍Hadoop分布式技术:MapReduce并发计算模型和HDFS分布式文件系统,并且对网页爬行器的任务调度算法、信息去重、网页更新识别等关键技术进行了分析,论述了爬行器性能和效率的瓶颈,在此基础上设计实现了基于Hadoop的面向Web的大规模、多语言的网页爬行器和面向双语网站的增量式爬行器。然后,本文介绍了一种基于互联网词典的元搜索获取双语平行句对的方法,最后,基于抽样检测对互联网上双语翻译资源规模进行了估计,并论证了其正确性。本文的意义在于提出了从Web上大规模采集双语语料资源的方法,并且实现了基于Hadoop分布式计算框架的双语语料采集系统,能够从全网范围的进行高效的网页采集,探测出双语站点,在双语网站范围内进行增量抓取,从而构建出一个大规模双语平行语料库,对机器翻译领域的研究提供了大规模语料库支持。另外,本文特定针对双语站点的网页更新规律进行了研究,最后通过设计实验,对Web上可能存在的双语语料资源进行了一个估计,对双语语料采集技术的相关研究有一定的指导意义。
其他文献
传统的缓存策略主要基于内存缓存,采用读写速度作为最终目标,随着固态硬盘SSD的出现,传统的缓存设计思路不再适用,由于固态硬盘存储介质Flash的读写特性以及擦写次数限制,如果将传
近年来,各种以流媒体技术为核心的产业,如视频点播、网络电视、视频分享网站等飞速发展,而流媒体视频的版权保护问题也日益严重。视频水印技术是一种有效的版权保护手段。但
无线传感器网络是由大量传感器节点自组织形成的网络,主要用来感知并收集监测区域的信息。由于信息的完整性会直接影响用户决策的正确性,且传感器节点的电源能量、通信能力和计
合成孔径雷达SAR是遥感技术领域的重要进展,用来获取地球表面的高分辨图像。其对国民经济的各个方面意义重大。深度学习是近年来提出的一种类脑学习的机器学习理论,深度学习理
机房是承载学校信息化建设和网络交换设备的重要基础设施,其安全性和运行状态关系到校园网络安全和学校信息化的正常运行,因此对机房环境进行实时远程监控以及建立报警和预警机
一直以来,图作为处理大规模数据的典型数据模型得到了广泛关注,比如蛋白质交互(Protein-ProteinInteraction,PPI)网络、交通网络、社交网络、RDF数据等都可以抽象为图。随着
煤炭资源是我国重要的基础能源,在国民经济的发展中具有重要的作用,但在煤炭开采的过程中,矿井事故频繁发生,不仅直接危害劳动者的生命安全、造成重大的经济损失,同时也造成了恶劣
无线自组织网络是终端节点自发组织形成的网络,具有分布式运行、拓扑动态变化等特点。移动自组织网络以及无线传感器网络都是被广泛研究的无线自组织网络。由于部署方式灵活,无
目前,重大经济领域内草拟后待颁布政策很多,如何保证这些政策的一致性,作为国民经济和社会发展中迫切需要解决的关键问题,受到了越来越多的关注。在研究政策的一致性时,需要对政策
云计算为数据处理工作带来了新的机遇与挑战。传统的关系型数据库在大数据的需求面前显得力不从心,而分布式非关系型数据库由于其高可靠性、高可用性的特性,能够满足大数据带来