跨语言信息检索中双语主题模型及算法研究

被引量 : 8次 | 上传用户:lllllllllllllvvvvvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展和全球化进程的加快,因特网所提供的信息资源不再集中于英语等少数几种语言上,人们使用母语去查询不同语言表示的信息的需求不断增加。跨语言信息检索(Cross-language Information Retrieval, CLIR)是一种表示、存储、组织和存取多语言信息资源的快速有效手段,是信息检索中一个富有挑战性和前沿的研究领域。跨语言信息检索重点解决如何使用一种语言表示的查询去搜索另外一种语言表示的信息的问题,其关键问题之一是采取不同方法建立双语语义对应关系。近年在机器学习、信息检索和自然语言处理等领域备受关注的主题模型已成为一种有效的CLIR方法。本文选题来源于国家自然科学基金项目《基于潜在语义对偶空间的跨语言信息检索理论和算法研究》(项目编号:60963014)和江西省教育厅青年科学基金项目《面向检索的平行语料库构建及跨语言检索模型研究》(项目编号:GJJ101168),系统地深入研究了基于双语主题空间的跨语言检索模型、跨语言文本分类方法和跨语言文本聚类方法,在不借助于机器翻译和双语词典等跨语言资源的情况下,可以有效地解决CLIR中词汇翻译的多对多问题,部分解决未登录词问题。本文的主要工作包括如下几点:(1)基于双语主题空间的跨语言信息检索总体框架研究从自然语言理解的角度来看,多语言文字是语言描述对象赋予有意义的不同语言符号系统的多视图表示。本质上,这些视图是语义等价的。本文假设双语平行文档享有相同的语义信息,运用偏最小二乘(Partial Least Square,PLS)数据统计分析理论,从双语平行语料库中提取平行文档的共有语义信息,构建具有双语对应关系的主题空间,由此建立一种基于双语主题空间的跨语言信息检索总体框架。在统一的框架下,从双语平行语料库抽取出一系列的主题构成每种语言的主题空间。每种语言的主题空间独立存在,且通过双语语义对应关系建立双语主题空间。双语主题空间反映了文档与文档、文档与词、词与词的语义对应关系,揭示了语言之间、语言内部的固有结构和内在联系,是抽象的概念空间,是各语言原始文档的中间表示。表示方式可以是线性或者非线性。从数学原理上来说,两个主题空间是近似等价的。我们将查询和文档投影到双语主题空间上,不需要直接翻译,可以实现跨语言的检索、分类和聚类。(2)建设面向跨语言信息检索的中英平行语料库语料库是一种十分重要的跨语言信息检索基础数据资源。CLIR可以使用语料库进行性能评测、翻译、建立双语词典和词义消歧等工作。本文从华尔街日报、金融时报和香港政府新闻网等网站搜集中英新闻网页,按照确定平行网页、文件预处理、段落对齐、文档类别标注、建立检索查询集和文档相关性判断等流程,自行建立了中英平行语料库、CLIR评测语料库、跨语言文本分类评测语料库。通过应用Google API1.0接口程序翻译TREC-9文档集建立了TREC-9中英双语平行语料库。(3)基于主题对偶空间的跨语言检索模型研究跨语言的潜在语义索引模型(Cross-Language Latent Semantic Indexing,CL-LSI)将每对双语文档串接成一个文档,利用双语词汇的共现特征获取双语之间的语义联系,而没有充分考虑各语言的固有特性和双语语义相关性。本文假设在双语平行语料库中,两种语言文档集隐含的主题内容相同,使用线性语义对偶空间表示双语主题,由此提出一种基于主题对偶空间的跨语言检索模型(TopicDual Space model,TDS)。TDS模型能够通过获取双语词项在平行文档中的共现信息,建立它们的统计依赖关系,构建它们的翻译关系、相关性等。在本文建立的CLIR评测语料库上进行的实验结果显示,TDS模型能够进行有效的词语翻译,提取具有主题特征、双语语义关联的双语主题,其文档配对搜索、跨语言检索性能优于CL-LSI模型。在TREC-5&6、TREC-9上的跨语言和单语言的实验结果显示,TDS模型总体性能优于CL-LSI。(4)跨语言中的双语主题相关性检索模型研究如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义。在TDS模型中,两种语言的文档矩阵是一种预测分析关系,是一种非对称的方法,没有平等对待两种语言;其时间和空间复杂度与双语文档数量成正比,不能有效处理大规模文档集。本文假设双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关。我们将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出双语主题相关性模型(Bilingual Topic Correlation,BiTC)。在中英双语新闻语料集上进行的实验结果显示,新模型的文档配对搜索和伪查询跨语言信息检索性能显著优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能。(5)基于双语语义对应分析的跨语言文本分类/聚类方法研究双语文本对应分析在处理多语言文本数据、克服语言障碍等方面有着重要的作用,跨语言潜在语义索引方法没有充分考虑双语的语义相关性和文档类别结构信息。本文将双语平行文档看作同一语义内容的两种语言表达,运用偏最小二乘方法构建双语文本的语义相关性,为每种语言建立单独的潜在语义空间,并在这两个空间上实现跨语言的分类和聚类任务。在本文建立的跨语言文本分类评测语料库上进行的实验结果显示,在本文方法构造的双语主题空间上完成的跨语言和单语言的文本分类性能接近或优于原始特征空间的单语言分类,跨语言文本聚类性能也接近或优于单语言文档聚类,并具有良好的稳健性。本文的主要创新点如下:(1)提出一种基于主题对偶空间跨语言检索模型(TDS)。针对跨语言的潜在语义索引模型简单串接双语平行文档带来的双语语义“混合”问题,提出了一种线性的语义对偶空间表示双语主题空间的方法。TDS模型能够获取平行文档中双语词项的共现信息来建立双语语义信息的统计依赖关系,由此实现了翻译和查询扩展等功能。(2)提出一种跨语言中的双语主题相关性检索模型(BiTC)。模型假设双语平行文档拥有语义相关的主题,从双语平行语料库构造每种语言的潜在语义空间,从而建立双语语义关联。新模型克服了CL-LSI模型没有充分考虑双语语义联系的不足和TDS模型不能有效处理大规模数据的问题。(3)提出一种基于双语语义对应分析的跨语言文本分类/聚类方法。针对跨语言潜在语义索引方法没有充分考虑双语的语义多重相关性和文档结构信息问题,本文为每种语言建立单独的低维主题空间,建立双语语义对应关系,其跨语言文本分类/聚类性能接近或优于单语言分类/聚类。
其他文献
高校大学生思想政治教育课中融入中国传统文化,是提高大学生综合素质的新途径,中国传统文化在培养爱国主义精神、人本主义精神、完善道德修养以及理想人格塑造方面,对高校思
目的采用不同表面改性方法处理聚酰亚胺,研究温度、湿度、紫外辐照和原子氧等环境因素对聚酰亚胺基体及涂层的侵蚀效应。方法用碱性溶液(NaOH)、硅烷偶联剂(KH-550)分别在水
“十二五”时期是我们国家社会实现科学发展、和谐发展最重要的五年,也是我们国家建设体育强国、推进体育事业实现新发展、新的历史跨越的关键五年。18年来,体育彩票以其强大
目的:本研究通过对76例成人斯蒂尔病(Adult Onset Still’s Disease, AOSD)患者相关资料的收集整理,初步探讨AOSD中医证型的分布情况,分析不同证型与性别、年龄、病程、C-反应
顺丁橡胶装置设备腐蚀主要集中在吸收油系统的氢氟酸腐蚀以及循环水换热器中的氧腐蚀,随着运行的周期增加,该两种腐蚀对于顺丁橡胶装置的稳定以及安全运行产生极大影响。本文分
近现代,伴随着西方资本主义经济发展和殖民运动,发源于西方的现代性扩展到穆斯林社会。现代性各种要素的不断扩张和积累,导致穆斯林社会中传统与现代之间的矛盾加深,伊斯兰世界面
采用质地多面分析方法(TPA),以清水处理为对照,研究碱性钙(氧化钙、氢氧化钙)、无机钙(氯化钙、碳酸钙、硫酸钙)、有机钙(乳酸钙、醋酸钙、丙酸钙)对干装苹果罐头质地参数(硬度、回复性
随着中国城市化建设进程的逐渐深入,园林绿化市场也在受到国家与地方政府越来越多的重视。众多园林绿化企业随着市场的发展应运而生,同行业的竞争随着参与者的增加正变得日趋
近年来上市公司高管薪酬问题一直备受社会关注,上市公司高管薪酬激励过度,高管薪酬与公司业绩相背离的报道频繁见诸于媒体。从现有的文献来看,薪酬激励并不能很好地解决委托-代
在基础教育课程改革及新课程理念的指引下,教师专业化是世界教师教育发展的趋势和潮流,培养出具有丰富广博的基础知识、较完善的能力结构,又具有敏锐的观察力以及发现问题并采用