面向Web的多语平行句对挖掘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wsq27028320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行语料库是统计机器翻译及其一系列相关研究应用不可或缺的重要资源。传统的人工校验、录入平行语料的方式不仅耗时费力,而且很难在有限的时间内建立起较大规模的平行语料库。随着互联网上各种双语、多语网站的兴起,很多研究人员开始研究从互联网上获取双语平行语料。然而,以往的一些研究主要集中于从平行网页(内容互为翻译的两个不同语种的网页)中获取平行语料。由于平行网页的稀缺性,导致所获得的语料规模、领域覆盖度不是很好。后来,有学者发现Web上存在着大量的混合网页(同一网页中存在互为翻译的两个语种的正文),且混合网页中的双语语料质量、覆盖领域都是平行网页所无法比拟的。因此,本文的研究主要围绕Web上的混合网页展开,并致力于建设能够从Web中的混合网页中自动获取双语平行语料的系统。本文的具体研究内容主要涉及以下几个方面:(1)本文总结了近年来国内外双语平行语料库建设以及双语平行语料库建设方法的研究现状。目前,国内双语平行语料库建设和研究工作的主要侧重于语料的后期处理,如语料库的加工标注、翻译知识获取等方面。同时,已有的平行语料库集中于中英双语平行语料库,面向大规模原始多语种的双语平行语料库的建设并没有得到充分重视。(2)本文在对现有双语平行语料库建设方法进行理论分析的基础上,实现了从Web自动挖掘平行语料的系统。该系统以互联网上广泛存在的具有较高研究价值的双语混合网页为主要的双语语料来源,其主要技术难点在于候选网页获取、双语混合网页检测、网页正文解析、平行句对齐等。本系统采用借助搜索引擎的检测与下载同步进行的候选网页获取方法,以网页内不同语种正文比例进行混合网页检测,使用标签分析的方法进行网页正文解析,平行句对齐则是采用融合了HTML标签特征的句对齐方法。通过实验检验,本系统双语混合网页检测准确率达到95%以上;网页正文解析准确率达到88%以上;平行句对齐准确率达到90%以上。(3)本文结合所获取的双语语料,完成了基于Lucene的多语综合检索系统。该系统以英语为中间语言进行用户查询的处理,经过简单测试,该系统返回的检索结果基本符合要求。
其他文献
本文根据事业单位会计监督的涵义,以及当前事业单位会计监督所面临的问题,提出了加强事业单位会计监督的有效措施。
嫁接与管理。嫁接方式:(1)在丛生枝条中选一根生长旺盛的直立枝条。6~8月,在离地1米处,采用丁字形芽接。成活后不剪砧,待落叶后剪砧站木的培养。站木品种可选用花旗藤、粉团
现代汽车装用柴油发动机的越来越多。而柴油发动机冬季的启动性能差则是驾驶员们面临的一个难题。因此,柴油发动机的启动特性、启动技巧、如何顺利启动是车主应掌握的重要技能
廊坊市综合执法局在市委、市政府的正确领导下,用解放的思想思考和审视城市管理工作,积极探索科学化、精细化、人性化城市管理新方法,采取了一系列有效措施,全面带动了城市管理水平的提升,也为建设生态宜居名城打下了坚实基础。  “中心!中心!我是071号城管监督员,向中心报告:建国道春明市场对面有个雨箅子丢失。”安维萍是廊坊市一名城管监督员,在5月23日的例行巡查中,她发现了上述情况,立刻用掌上“城管通”呼
随着科学技术的迅猛发展,演播室技术的日益成熟,演播室形式已经不再局限在广播电视中使用,演播室在教学中的应用也越来越受青睐,从而在根本上改善了传统教学课程缺乏真实感、
科技是第一生产力,国家提出了全面落实科学发展观和科教兴国战略,党的十六届五中全会和全国科技大会又提出建设创新型国家的战略任务,广西作为中国-东盟自由贸易区建设进程中
经常打死转向盘 新手学车移库时.很多人习惯了打死转向盘。其实,因为常常使用,助力泵也是车辆上易损部件,经常打死转向盘,会使助力泵长期处于绷紧状态。因此。尽量不要将转向盘打
新常态既给京津冀协同发展带来了机遇也提出了挑战,并赋予京津冀协同发展的新使命。针对京津冀协同发展的新阶段与新情况,通过构建绩效评价指标体系,并评价对比京津冀、长三
外观检查检查催化转化器在行驶中是否受到损伤以及是否过热。用举升机将车辆升起之后,观察催化转化器表面是否有凹陷。如有明显的凹痕和刮擦,则说明催化转化器的载体可能受到损
随着人们对于数码播放器要求的不断提高,现在的数码播放器需要有更多更加体贴而时尚的功能和应用,才能够在竞争激烈的市场上脱颖而出,赢得消费者的青睐。而这类产品的多点触控显