【摘 要】
:
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用的基础资源。随着现代经济与科学技术的飞速发展,新词不断涌现,通过手工编纂词典已经无法及时满足人们的日常需要。
论文部分内容阅读
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用的基础资源。随着现代经济与科学技术的飞速发展,新词不断涌现,通过手工编纂词典已经无法及时满足人们的日常需要。基于平行语料抽取双语词典是一个很重要的研究方向。但是,真正句子对齐的平行语料相对于单语文本来说是非常稀少的,这给此类方法的实际应用带来了局限性。同时,互联网上特定领域的各种语言的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域非平行语料来抽取双语词典就成为一个既有挑战性又有实际价值的课题。本文基于互联网特定领域非平行文本数据,构建了统计模型来抽取双语词典,主要完成了以下工作: 1) 提出了一种基于互联网非平行文本数据抽取特定领域双语词典的算法。首先将互联网上的语料分为混合语料和非平行语料,对于混合语料采用基于启发式规则的方法进行词典抽取,正确率达到了82%;对于非平行语料,本文在分析了相关研究资料的基础上,提出了一种基于词间关系矩阵的双语词典抽取算法:同时,针对双语单词向量间的关系计算提出了一种改进的向量间相似度计算方法,并取得了比较满意的效果。抽取结果Top20的正确率达到了47%。 2) 通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 3) 将所抽取的特定领域双语词典应用于跨语言信息检索系统,对词典抽取结果进行了验证,结果表明对于特定领域的查询条件,查询结果的精确度和召回率都有较大提高;而对非特定领域的查询条件,效果不明显。
其他文献
<正>一、美国东方主义的中国话语与中国的比较文学研究因出版与审阅的机会,我再次阅读了这部书稿《美国东方主义的中国话语:赛珍珠中美跨国书写研究》(以下简称《中美跨国书
<正>1969年11月5日,新华社军管小组组长张纪之把我叫到他的办公室,说昨天接到周总理办公室的电话,要求新华社组织一个调查组前往内蒙古自治区调查。任务紧迫,总理会很快安排
<正>1月27日,除夕之夜。在全国各族人民的期待中,2017年央视春节联欢晚会如约与广大观众见面。首次作为央视春晚分会场之一的桂林分会场,在象鼻山下、漓江河上惊艳亮相,把一
经典小说一直是文学研究中的重点。然而,一部文学作品如何成为“经典之作”,“经典”的含义和本质又究竟如何,这样的问题与许多其他文学问题一样没有可遵循的公式,更没有确定
长河水系是北京城市河湖水系的重要组成部分,其中西海、后海、前海、北海与中南海被喻为“城市的心脏”。2003—2004年的调研结果显示,长河水系初级生产力主要决定于浮游藻类
外周和中枢的各类神经元几乎普遍存在着突触前受体,它受到生理学、药理学及临床医学工作者的广泛重视。本文就突触前受体的概念、确证和意义,以及已发现的突触前受体的概况作
案例研究方法最初起源于 19 世纪系统使用的个案研究。个案源于医学,特指一份典型而有价值的病例。在医案研究的价值获得认同的同时,案例研究的方法被引入社会科学(包括教育
方孝孺的“礼治主义”政治思想,是对先秦儒家“仁政礼治”思想的直接继承和全面发挥。方孝孺生于元末明初,其“礼治主义”政治思想,产生于元末动乱与明初新政,在建文帝政治改
一、论文的主要内容及观点现代信托起源于英国,盛于美国,在日本得到创新和发展,至今已被大陆法系国家所广泛继受。信托已成为当今世界金融的四大支柱之一。然而,植根于英美法
从文章学角度看,梁启超在长期大量阅读过程中形成了自己的独特的文章阅读观。本文从文章阅读教材的选择和文章阅读策略两个层面对他的文章阅读观进行分析,同时,指出对现代语