基于相关反馈的英汉跨语言信息检索查询翻译优化技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:habits
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多语言性是网络社会交流的重要特征之一,跨语言信息检索(Cross-LanguageInformation Retrieval,CLIR)旨在通过以某种语言检索另外一种语言表达的信息,来消除信息检索中的语言差异,成为近年来信息检索领域很活跃的研究方向。   本论文对国内外相关研究进行了全面调研,发现目前跨语言信息检索在查询翻译消歧问题上还有待进一步解决,而有关跨语言信息检索的中文研究则缺乏局部的技术实现以及整体的理论框架。鉴于此,本论文的研究重点是引入相关反馈(Relevance Feedback,RF)技术来提高英汉跨语言信息检索的精准度,尝试对基于相关反馈的查询翻译优化技术进行一些开创性的研究。   在论文的八个章节中,首先全面梳理了跨语言信息检索与相关反馈技术的理论问题,然后提出了一种基于相关反馈的查询翻译优化技术(Translation Enhancement,TE),该技术是利用用户判断的相关文献及其译文来获取检索词对译关系,进而改进初始的查询翻译,以提高跨语言检索结果的精度。在此基础上,通过将查询翻译优化技术与查询扩展技术(QueryExpansion,QE)进行比较研究,并结合系统相关性与用户相关性理论,论文构建了一个跨语言检索相关反馈综合模型(Relevance Feedback Integrated Model,RFIM)理论框架,开发并实现了一个基于相关反馈的交互式英汉跨语言信息检索系统(Interactive Cross-languageEngine with Translation Enhancement Approach,ICE-TEA)。最后,通过自动相关反馈与用户相关反馈两组实验,验证了查询翻译优化技术的有效性与RFIM模型的合理性。   本文的创新之处主要体现在以下三个方面:   (1)提出了一种崭新的跨语言相关反馈技术。基于相关反馈的查询翻译优化技术完全不同于单语言检索中传统的相关反馈思想,它是利用相关文献对来优化跨语言检索的查询翻译,解决了部分查询翻译的歧义性问题。针对从相关文献集合中抽取检索词的互译关系,我们具体设计了4种算法,即TWA算法、KAT算法、K1T算法、KFT算法,并分别进行了数学建模与编码实现。   (2)建立了一个全新的跨语言检索相关反馈理论模型框架。具有三层结构的跨语言相关反馈综合模型结合了系统与用户相关性理论、各项相关反馈技术、影响相关反馈的各种因素,以及用户行为因素。该模型的建立较好地解释了在跨语言信息检索中,各种相关反馈方法之间的关系及其应用环境。   (3)开发了一个新颖的具有相关反馈功能的交互式英汉跨语言信息检索系统,并首次进行了跨语言检索的自动相关反馈与用户相关反馈实验研究。系统具有多项相关反馈功能,包括查询翻译优化、查询扩展,以及二者的结合。该系统的构建与相关反馈实验的结论为相关反馈技术在跨语言信息检索中的实际应用提供了参考。  
其他文献
谁能料到,一场比寒流更阴险的疫情  抢在春天到来之前逞疯  情况,比我们开始预想的要严重  从大年三十之前  一直到过了正月十五  我们一直在与时间赛跑,分秒必争  战斗,需要坚守,更需要冲锋  在湖北、在武汉,医院的灯昼夜通明  夜以继日,从死神手里抢人  那些奋不顾身的护士  那些与病毒杀红了眼的医生  四面八方,医疗队、救援队在跑步集结  火神山、雷神山医院昼夜施工,陆续投用  飞机、高铁,
期刊
基于P2P技术的数字图书馆虚拟联盟的诞生,克服了数字图书馆实体联盟之间缺乏灵活的、有效的动态整合机制的难题。由于虚拟联盟没有中心节点和管理机构,作品的传播难以控制,著
少数民族档案文献是少数民族文化遗产中的瑰宝,也是中华民族文化的重要组成部分。但是,由于种种原因,我国的少数民族档案文献长期处于封闭状态,利用不便,少数民族档案文献损毁、流
综述国内外学者对谷歌数字图书馆法律问题研究、竞争与反垄断研究、影响研究的现状,认为国内外学者对谷歌数字图书馆的研究均存在不足,国内学者对谷歌反垄断与竞争、和解协议
近年来,关于图书馆学教育和图书馆职业需求是否脱离问题讨论激烈。在以图书馆学就业现状调查为基础上,针对图书馆学人才的需求现状和本科生源的缺失两方面的情况进行分析,认
针对我国公共图书馆存在文献资源不足,地区发展不平衡,服务网点少,高层次信息增值服务不理想等问题,提出高校图书馆服务社会要充分考虑与公共图书馆在资源和服务上的互补与协
中图分类号:G82 文献标识:A 文章编号:1009-9328(2017)05-000-01  摘要在现代生活高强度的运转和压力之下,要想在竞争中脱颖而出,不仅需要扎实的理论基础,更需要一个健康有活力的身体。而每年为国家输出大量优秀人才的各大高校却并没有重视体育教学,作为体育锻炼十分重要的一个项目的田径教学,更是备受冷落。本文就该现状进行数据分析,并提出有效的改革对策。  关键词健康身体体育锻炼田
信息资源建设是高校图书馆一切工作的基础,只有做好信息资源建设工作才能更好地为读者服务,为学校的教学和科研服务,从而为学校的发展提供强有力的信息保障。而做好信息资源
分析高校图书馆电子文献采购的委托—代理关系,建立高校图书馆与电子文献提供商的委托—代理模型,通过对模型均衡结果的推导与分析,认为高校图书馆采购电子文献的最优合约是
现阶段健康观念越来越多地渗透到人们的日常生活中,这给社会体育提供了非常大的发展空间,目前很多学校也开始成立社会体育教学专业,然而新时期在社会体育教学创新方面还存在