论文部分内容阅读
多语言性是网络社会交流的重要特征之一,跨语言信息检索(Cross-LanguageInformation Retrieval,CLIR)旨在通过以某种语言检索另外一种语言表达的信息,来消除信息检索中的语言差异,成为近年来信息检索领域很活跃的研究方向。
本论文对国内外相关研究进行了全面调研,发现目前跨语言信息检索在查询翻译消歧问题上还有待进一步解决,而有关跨语言信息检索的中文研究则缺乏局部的技术实现以及整体的理论框架。鉴于此,本论文的研究重点是引入相关反馈(Relevance Feedback,RF)技术来提高英汉跨语言信息检索的精准度,尝试对基于相关反馈的查询翻译优化技术进行一些开创性的研究。
在论文的八个章节中,首先全面梳理了跨语言信息检索与相关反馈技术的理论问题,然后提出了一种基于相关反馈的查询翻译优化技术(Translation Enhancement,TE),该技术是利用用户判断的相关文献及其译文来获取检索词对译关系,进而改进初始的查询翻译,以提高跨语言检索结果的精度。在此基础上,通过将查询翻译优化技术与查询扩展技术(QueryExpansion,QE)进行比较研究,并结合系统相关性与用户相关性理论,论文构建了一个跨语言检索相关反馈综合模型(Relevance Feedback Integrated Model,RFIM)理论框架,开发并实现了一个基于相关反馈的交互式英汉跨语言信息检索系统(Interactive Cross-languageEngine with Translation Enhancement Approach,ICE-TEA)。最后,通过自动相关反馈与用户相关反馈两组实验,验证了查询翻译优化技术的有效性与RFIM模型的合理性。
本文的创新之处主要体现在以下三个方面:
(1)提出了一种崭新的跨语言相关反馈技术。基于相关反馈的查询翻译优化技术完全不同于单语言检索中传统的相关反馈思想,它是利用相关文献对来优化跨语言检索的查询翻译,解决了部分查询翻译的歧义性问题。针对从相关文献集合中抽取检索词的互译关系,我们具体设计了4种算法,即TWA算法、KAT算法、K1T算法、KFT算法,并分别进行了数学建模与编码实现。
(2)建立了一个全新的跨语言检索相关反馈理论模型框架。具有三层结构的跨语言相关反馈综合模型结合了系统与用户相关性理论、各项相关反馈技术、影响相关反馈的各种因素,以及用户行为因素。该模型的建立较好地解释了在跨语言信息检索中,各种相关反馈方法之间的关系及其应用环境。
(3)开发了一个新颖的具有相关反馈功能的交互式英汉跨语言信息检索系统,并首次进行了跨语言检索的自动相关反馈与用户相关反馈实验研究。系统具有多项相关反馈功能,包括查询翻译优化、查询扩展,以及二者的结合。该系统的构建与相关反馈实验的结论为相关反馈技术在跨语言信息检索中的实际应用提供了参考。