基于互联网的统计机器翻译平行句对获取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:focus2316a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
于20世纪90年代兴起的统计的机器翻译技术(SMT),是一种基于统计的机器翻译模型。它能够从双语语料库自动的提取翻译规则而不需要人工的干预,并利用这些自动抽取的翻译知识解决实际的翻译需求。随着基于统计的机器翻译模型逐渐完善,构建一个相对成熟的机器翻译平台也变得越来越简单。但是一个成熟的机器翻译模型需要一个平行质量相对优异的语言库作为支撑。如果通过人工构建的方法去构建一个大型语料库则需要耗费大量的人力物力。特别是对于中国的少数民族语言而言,中国共有56个民族,拥有超过80种语言,约30种文字系统。不同语言之间,自动处理水平各不相同,这导致了不同少数民族语言使用者获取以英语和汉语等大语种所记录信息的能力也极其不同。而我们认为长期信息交换的不对称,是造成不同地域文化经济上的差异的重要因素之一。那么是否可以用计算机自动处理的方式,缓解甚至是消除这种信息交换的不对称,是摆在广大学者面前并亟待解决的问题之一。因此本文将自动从网络上获取平行语料,对平行语料进行处理形成可以构建出优秀翻译模型这两点出发进行研究。本文的具体研究内容及研究成果如下:(1)本文通过对当前网络上少数民族语言存在分布进行分析,得出少数民族语言网络分布的特征,通过对特征进行分析,结合特征情况设计并实现针对网络少数民族语言的网络爬虫。(2)本文通过对过去的词典抽取方法进行分析,总结过去研究中词典抽取的优缺点,结合最近研究,使用标签传播算法将一维的词典抽取方法拓展为基于图的二维标签传播词典抽取方法。并实现了相应的词典抽取工具。(3)本文通过对平行句对特征观察,结合过去的研究成果设计了一个基于句子级别和特征词的双语平行句对质量分析句对,并实现了相应的平行句对质量分析工具,将其作为机器翻译的第一步。(4)本文结合translate hub、枢轴语翻译方法与本文前几章节工作,设计并实现了基于汉语的英语—维吾尔语演示平台。
其他文献
癌症成为人类致命的疾病,不仅在于癌细胞的生长失去控制,更在于其具有转移能力,而转移癌细胞通常是真正的杀伤细胞.癌细胞的转移,即其进入血管以及再穿出血管进入其它组织,必
产地检疫是动物防疫工作的一项基础性工作,它关系到畜牧业的健康发展和人民群众的身体健康.2002年锦州市动检站会同北宁市畜牧局在北宁境内本着"防疫是基础,检疫是关键,监督
目的统计分析医院门诊数据,为加强医院管理提供大数据支持。方法采集某医院2015—2019年的完整门诊数据,按季节、月份等维度进行统计及趋势分析。结果5年的门诊量呈渐进性增
在中国古代中央集权帝制时期的乡治模式中,乡村德治表现为"教化—控制"型治式,统治阶层掌握着道德理念主导权和解释权,将道德教化的责任转嫁于以乡土绅士群体为代表的地方精
高渗性高血糖综合征(hyperosmolar hyperglycemic syndrome, HHS)以严重的高血糖、高血浆渗透压、严重脱水、无明显酮症,伴有不同程度的意识障碍的综合征。在T1DM和T2DM中均
近年来高空坠抛致人损害的案件仍层出不穷,新出台的侵权责任法在第八十七条对此类事件做了明确的规定,但却引起了各方的极大关注与争议。本文从利益衡量的视角对高空抛物侵权
随着《刑法修正案(八)》将重大环境污染事故罪修改为污染环境罪,加之相关司法解释的出台,污染环境罪的犯罪形态在理论上失去了定型性。行为犯、结果犯、危险犯、具体危险犯以
恶性胸腔积液最常见于肺癌,其次为乳腺癌、卵巢癌和淋巴瘤。肺癌与乳腺癌的胸腔积液占75%[1,2],病人常出现渐进性呼吸困难。最常见的治疗方法为插管腔内注射药物,常用的药物有四环素、滑
期刊
制备人乳头瘤病毒(human papillomavirus,HPV)与免疫辅助因子融合的嵌合基因疫苗,以增强基因免疫的效应,是HPV疫苗研制的基本方向之一[1].由于HPVE7在大多数宫颈癌及其前体病