【摘 要】
:
互联网上存储着海量的信息资源,但由于信息资源存在多样性,人们使用的语言存在差异性,导致人们在获取资源的时候很难对信息资源进行有效的解读。如何从大规模信息中获取用户所需的多语种信息资源成为当务之急,跨语言信息检索也逐步发展成为信息处理技术的一个重要研究方向。跨语言信息检索的核心就是允许用户使用自己熟悉的母语获取其他语种的资源。目前较为普遍的跨语言信息检索大多数采用基于翻译的单语言信息检索,需要较高的
论文部分内容阅读
互联网上存储着海量的信息资源,但由于信息资源存在多样性,人们使用的语言存在差异性,导致人们在获取资源的时候很难对信息资源进行有效的解读。如何从大规模信息中获取用户所需的多语种信息资源成为当务之急,跨语言信息检索也逐步发展成为信息处理技术的一个重要研究方向。跨语言信息检索的核心就是允许用户使用自己熟悉的母语获取其他语种的资源。目前较为普遍的跨语言信息检索大多数采用基于翻译的单语言信息检索,需要较高的翻译质量,对计算机资源的要求也很高。另一种是借助双语词典的方法,此方法虽然在查询扩展方面对检索的召回率有一定的提高,但是在翻译模型训练方面却需要大规模的、高质量的、翻译完好的平行语料,而优质语料的获取仍是一大难题。本文提出了基于潜在语义分析的跨语言信息检索模型,利用平行语料和潜在语义技术,实现中朝英多语种科技文献信息检索系统。主要工作如下:首先,收集并整理中朝英科技文献摘要平行语料,根据计算机资源限制划分语料集,并对每个语料集建立词典,有效解决大规模词项-文档矩阵的奇异值分解的工程问题,建立多重潜在语义子空间。其次,对用户提供的查询,根据词共现准则定位待检索的潜在语义子空间(目标子空间),结合Word2vec模型对原始查询进行查询扩展,并引入新的空间维度进行向量化处理未登录词,最终在目标子空间进行检索获得多语种检索结果。最后,基于本文研究提出的方法开发出中朝英跨语言科技文献信息检索系统。实验和系统运行结果表明,所设计系统查准率、召回率达到设计要求,基于潜在语义空间模型的查询相似度基本达到85%以上。也表明潜在语义空间模型在跨语言信息检索中能够较好地表征文档语义信息,能够保证跨语言检索系统的准确性和有效性。
其他文献
汽轮机润滑油系统是石化电力行业中大型汽轮机组中的重要组成部分,但是由于工况的差异、结构的复杂和其他因素的影响,润滑油系统容易出现各种问题,如果单纯地从机械外观等判
5月17日,漳浦县委书记沈元坤特意到沙西镇土楼村,他握着村主任林法明的手说:“村干部搞营销,帮助农民推销农副产品,这种做法值得提倡”。 去年初,土楼村种植绿芦笋1000多亩,
骨质疏松症是常见的代谢性疾病之一,基于显微CT图像对骨微结构进行分析对研究骨质疏松症的成因、诊断以及早期预防具有重要的参考价值。目前骨密度测量是全世界公认的诊断骨
二氢槲皮素(Dihydroquercetin,DHQ)作为一种重要的黄酮类物质,是一种比较稀缺的天然强效抗氧化剂,可有效去除人体内的自由基与毒素,具有抗氧化、抗肿瘤、抗病毒和调节免疫力
一、无公害苹果生产栽培管理技术1.土肥水管理分为扩穴深翻和全园深翻.每年秋季采收后结合秋施基肥进行。扩穴深翻为在定植穴(沟)外挖环状沟或平行沟,沟宽80厘米,深60厘米左右。全
外源基因在不同的转基因植物株系间会呈现很大的表达差异,甚至出现同源共抑制现象,即转基因在其自身不表达的同时也造成与它同源的内源基因的沉默。转基因沉默和同源共抑制主
<正> 结球甘蓝是涵江区秋冬种的主栽品种,前作多为水稻、大豆、花生、甘薯等农作物。一般在7月中下旬播种,8月下旬9月初移栽,根据品种、生育期不同,10月上旬至次年2月初为收
上杭县地处福建西南部,是典型无煤少电能源资豫缺乏区.20世纪80年代之前.农民的传统生活用能主要以薪材为主占90%.煤、电、石油气占10%。农村能源短缺制约着农村经济发展的规模、速
在农业生产实践中,农民朋友对微肥的作用有一定认识,但在施用技术上还存在着一些问题。为了避免滥施、偏施的弊端,现将常用的6种微肥施闸量及施肥中应注意的事项作一归纳,供
绿丰源既不是肥料,也不是生长激素,是一种新型环保型植物养分吸收促进剂。它具有全降解、无毒、无害、不含重金属、无残留;天然、广谱、高效、适用范围广;能富集营养元素,提