基于统计语言模型的跨语言信息检索

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:alanyu97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索引起了众多研究者的重视,成为当前信息检索领域的一个研究热点。跨语言检索系统允许用户使用一种语言的“查询”在另外的一种或多种语言的“文档”中进行检索,这对于很多不精通外语的搜索引擎用户而言具有重要意义。基于语言模型的检索方法为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。与传统检索模型相比,语言模型不仅具有良好的理论基础,而且非常灵活,经过简单的变换很容易推演出其他经典的检索模型。此外,大量的实验结果表明,该方法的检索效果优于其他检索模型,因而一经提出便受到了广大研究人员的青睐。然而当前语言模型方法的研究主要集中在单语检索任务中,很少有研究关注语言模型方法在跨语言检索中的应用。针对这个问题,本文在系统介绍语言模型检索方法的基础上,将语言模型方法扩展到跨语言检索任务中,介绍了两个跨语言检索模型:统计翻译模型和跨语言相关语言模型。未登陆词问题与翻译歧义问题的存在是制约查询翻译方法的主要因素。针对这两个问题,本文给出了相应的解决策略:(1)基于Web的未登录词翻译提取。传统的翻译提取方法大都基于共现统计的,其本质是利用候选词与待翻译未登录词之间的共现次数等统计信息来衡量二者之间互译的可能性,这类方法在训练样本足够时可以很好的工作。然而目前主流搜索引擎返回的结果中仅包含少量的摘要信息,通常只有几十或几百字,在这么小的样本集上做统计,很难保证统计结果的可靠性。为了解决这个问题,本文中引入一个特别适用于小样本环境的度量准则——频率相似性,实验结果表明该方法不仅可以提高翻译词提取正确率,还可以改善跨语言检索性能。(2)基于图排序的歧义消解。首先将歧义消解问题转化成图中节点(候选翻译词)的Ranking问题,然后利用PageRank等随机游走算法迭代计算图中每个节点的权重,权重越大表明相应的候选词越有可能成为正确翻译,当算法收敛并达稳定状态后选择权值较高的候选词作为原始查询的正确翻译。
其他文献
提出一种低成本高效率的化学方法,用以制备钙钛矿结构固体氧化物燃料电池(SOFC)阴极材料La0.8Sr0.2Co0.5Fe0.5O3-8(LSCF).该方法与传统方法不同,采用非螯合聚合物-聚乙烯醇(PVA,Polvinyl a
种母猪担负着怀孕与分娩的重任,而三伏天又是一年最热的时候,只有让种猪平安度过,才能确保养猪的经济效益。因此,必须对种猪场采取以下措施:
分析总结了扁穗雀麦的分布、来源、植物学特征、生物学特性、饲用价值和栽培利用措施,以促进该优良牧草的推广利用。由于扁穗雀麦在云南冬春潮湿阴凉环境条件下仍保持绿色,故
通过三维有限元计算,对某水电站大型水轮机蜗壳进行了三种结构型式的动静力分析,分析了外围混凝土的应力分布情况、承载比以及蜗壳结构的自振特性. 结果表明:充水保压蜗壳具
为改善Web缓存系统中存在负载不平衡现象,提出了一种基于Agent的自主式缓存负载平衡方案.文中对Agent的结构进行了设计,指出了现有均衡算法的不足,提出了基于主机检测的动态复制
应用闸门同步操作技术和P+PR算法,建立了多渠段串联渠系并有渠侧出流的等体积控制模型,并编程对控制过程进行实时模拟.对系统的稳定性、过渡时间、超调量和稳态精度进行了分
采用顶空固相微萃取(HS-SPME)及气质联用(GC-MS)技术,利用面积归一化法对常温和冷冻(-20℃,60d)后酸、甜两种品系香水梨果肉的香气成分进行提取及分析鉴定。常温酸梨共检出21
随着人们生活水平的提高,高血压患者增多及年轻化,且生活节奏的加快及精神压力的增加,脑出血已是较常见的神经科疾病,死亡率及致残率较高,严重危害人类健康.近年来行微创粉碎
期刊
本文基于“五个一”教学模式,从中学思想品德课堂教学的准备工作、教学过程的组织以及教学活动的反恩三个方面进行了探讨和思索,认为从课堂开始的准备、教学过程的把握、教学结
宁蒗县地处滇西北冷凉山区,水稻种植区域多在海拔2100m以上,一季有余,两季不足,通过稻茬免耕种植光叶紫花苕实施粮草轮作,取得了较好的经济和生态效益。本文系统介绍了宁蒗县