基于主题伪相关反馈的跨语言信息检索技术研究

被引量 : 3次 | 上传用户:huanghong198122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索为人们获取网络信息带来了巨大的便利,网络上多语言信息资源的大规模存在,也使得用户对跨语言信息检索(Cross Language Information Retrieval,简称CLIR)的需求不断增长。在跨语言信息检索任务中,查询式与检索结果来自不同的语种,语词不匹配的问题尤为严重。在当前机器翻译质量有限的情况下,有效借鉴已有单语信息检索中的相关技术,同时有机结合跨语言检索的任务特点,提高跨语言信息检索的性能,是一个具有重要学术和应用价值的研究方向。相关反馈技术是提高用户对检索结果满意度的关键技术之一,在单语信息检索任务中取得了广泛的成功,而在多语言检索任务中,如何利用来自不同语言领域信息之间的相关性和互补性,设计有效的多语言相关反馈机制,得到了越来越多研究人员的重视。本文面向跨语言信息检索任务,对多语言伪相关反馈(Pseudo Relevance Feedback,简称PRF)技术展开研究,其中的一个关键问题是如何选择有价值的多语言相关词项对查询式及其翻译进行扩展优化。已有的跨语言反馈方法多从文档层面进行反馈计算,并将整个伪相关文档中的高频词作为查询式的扩展词项。本文从更细粒度的主题层面进行跨语言伪相关反馈,从伪相关反馈信息的质量、多语言伪相关反馈信息之间的相关性以及多语言扩展词的有用性等方面出发,逐步递进地提出了一系列基于主题的跨语言伪相关反馈模型,并对多语言相关扩展词的选取方法进行了探讨。论文的主要贡献包括:提出了一个基于单语主题的跨语言伪相关反馈模型。已有的伪相关反馈策略大多基于检索结果文档进行,而文档内容丰富多样,可能包含与查询式关系并不十分密切的其他内容。本模型在查询翻译前后的不同阶段,分别对源语言检索文档和目标语言检索文档进行主题建模,根据不同语言的文档-主题分布以及主题-词分布,在检索结果文档中选择与查询式相关的主题,进而在这些主题中选择高概率词作为反馈信息。在同等条件下的实验结果表明,基于主题层的跨语言反馈效果与已有的基于文档层的跨语言反馈策略相比更加鲁棒,前者的CLIR平均检索排序结果(nDCG)比无反馈机制的CLIR提高了1.3%,而后者的最好反馈结果只提高了0.4%,噪音较多时甚至会对跨语言检索性能造成负面影响,这说明更细粒度的反馈信息质量更为可靠,更加适合跨语言反馈任务。提出了一个基于双语主题的跨语言伪相关反馈模型。与单语信息检索相比,跨语言检索可以获得双语检索结果,这就为改善伪相关反馈的性能提供了一些新的材料。本模型将关于同一查询式的双语检索文档视为内容上相关的可比语料,利用扩展的双语主题模型同时对源语言反馈文档和目标语言反馈文档进行建模,基于“共享”的双语主题对查询式及其翻译进行反馈扩展。该模型充分利用了多语言反馈信息之间的相关性,与已有的分阶段执行单一语种反馈的机制相比,考察的反馈信息更为丰富,在可比性较高的双语检索文档上取得了较好的跨语言反馈效果,实验表明,基于双语主题伪相关反馈模型的CLIR的平均检索排序效果与无反馈机制的CLIR相比提高了2.4%。提出了一个基于弱相关主题对齐的跨语言伪相关反馈模型。当一次检索得到的双语结果可比性差时,基于双语主题的跨语言伪相关反馈模型就难以获得强相关的“共享”双语主题。本模型针对此问题,提出利用翻译知识建立不同语言主题之间的对齐关系,融合翻译特征以及web同现特征的多语言词项相似度评分函数,获取弱相关对齐主题,并从中抽取有用的扩展词。该模型有效抑制了跨语言查询中的主题偏移问题,更加适用于对可比性较差的web检索结果进行跨语言反馈扩展,实验表明,基于弱相关主题对齐反馈模型的CLIR平均排序效果比无反馈机制CLIR提高了6.4%。实现了一个基于跨语言伪相关反馈机制的汉英跨语言信息检索系统CTP-CLIR。本系统实现了自动访问web获取开放语料以及对本地数据库执行多语言信息、检索的功能,融合了本文所提出的多种跨语言伪相关反馈模型,可以进行高质量的基于多种伪相关反馈机制的汉英跨语言信息检索。
其他文献
中国少数民族文献目录学是中国目录学研究的重要内容之一。文章根据当代目录学的发展趋势,结合中国少数民族文献目录学历史发展和研究现状,提出未来中国少数民族文献目录学的
人脸表情识别是计算机视觉以及模式识别领域的热点研究问题,自20世纪80年代以来的三十年间受到了越来越多学者的重视。同时,作为人工智能以及情感分析的重要分支,人脸表情识别在
在3G移动通信市场竞争激烈的中国市场,移动定位服务LBS (Location Based Services)业务是各大移动通信运营商和位置服务提供商的重要角逐地,越来越多的智能手机和其他移动终
学习者的个体差异对二语/外语习得的影响越来越受到人们的重视,个性特征是个体差异研究的热点;二语/外语习得的重要方面及根本目的是语言的输出(即说和写),而个性特征又在很大程
丝素蛋白具有优良的生物相容性及环境友好性,在组织工程、生物医学、食品、纺织等领域具有广泛的应用前景。本课题以酪氨酸酶催化氧化丝素蛋白分子侧链中的酪氨酸残基,生成具有
文莱在苏丹王的统治之下大力推行“马来化、伊斯兰化和君主制”,通过一系列的政策同化非马来族和非伊斯兰教的国民。非马来语在全国统一的意识形态下构词和句法上受到官方语
档案工作者必须积极投身于档案事业 ,通过提高自己的能力 ,在为档案事业作出贡献的同时 ,实现自己的个人价值。同时 ,社会与档案管理部门也应为档案工作者个人价值的实现创造
智能视频识别系统是指采用智能化视频分析算法,对设定范围内目标的特定行为进行自动检测和识别的集成化系统。当异常行为出现时,系统自动发送警示信号,通知监控人员来进行后
互联网存在着严重的“僵化”问题,新的协议和服务较难部署到现有的网络架构上,使其发展遇到瓶颈。近年来,网络虚拟化技术应运而生,它允许一个底层物理网络同时承载多个异构的
目的:卵巢癌患者通常会产生化疗耐药,从而导致不良的临床影响。虽然已有研究表明,许多恶性肿瘤患者不良预后的发生与Class Ⅲ β-tubulin、Sox2和Survivin的表达紧密相关,但是