基于中间语义的跨语言信息检索研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:kelly2457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的快速发展,Internet上信息资源类型和数量都愈来愈丰富,所使用的语言亦愈来愈具有多样性和不平衡性;同时随着网络用户数量与范围的急剧膨胀,其所掌握的语言也开始呈现多样化。由于网络资源语种的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍,例如网络中65 %以上的信息都是英语信息,而使用英文的网络用户仅占约30 % ,这给非英语国家用户利用网络信息带来了极大的不便。不仅在互联网中,在所有同时存在多语种的信息系统(如数字图书馆)中,这种语言障碍都限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。从上世纪90年代末开始,人们对信息检索提出了更高的要求,即不再满足于在同一语种中进行检索,而要求在检索结果中包含多种语种的相关信息。为解决人们在从多语种信息系统中获取信息的过程中存在的语言障碍问题,研究学者提出了使用一种语言即可以方便地检索出系统中存在的所有语种相关信息的方法和技术,称为跨语言信息检索(Cross-Language Information Retrieval ,CLIR)技术。基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言信息检索的热点研究技术。基于辞典的模式就是采用机读辞典来做翻译,这里主要的问题是词汇的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选词的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻译主要是针对文档翻译进行的,文档翻译的缺点是执行效率不高,翻译往往不够确切。为解决上述问题,我们提出了一种基于偏最小二乘理论的中间语义的跨语言信息检索方法。实验结果显示,基于中间语义的跨语言信息检索方法具有良好的特性。本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了基于中间语义的跨语言信息检索模型;第二,建立了一定的中英文平行语料库,为以后扩充中英文平行语料库打下来了一定的基础。
其他文献
Mashup服务是一种将来源不同的Web API数据内容服务进行集成开发而形成的Web应用,是一种新型的Web服务。它从外界其他数据源得到数据内容服务,并将这些数据源的内容服务进行
随着业务流程技术的快速发展和广泛应用,用户可更高效的构建更新业务流程管理系统,从而积累了大量跨领域异构业务流程,根据参考流程检索出相似流程(流程检索)这一需求也日益
随着单片机的广泛应用,社会对单片机开发人员的需求越来越大,对他们的要求也越来越高,如何培养高素质的单片机开发人才对高校是十分重要和迫切的。目前高校的单片机教学依然
股票是市场经济的产物,从诞生的那天起就牵动着数以千万投资者的心。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。个人投资者和机构投资者时刻关心股
近年来,随着多媒体技术和互联网的飞速发展,产生的数字图像数量正以惊人的速度增长。这些图像在军用及民用各个领域都有着重要的作用。如何对图像进行有效的检索,已成为国际
随着市场竞争的日益激烈,面向顾客订货的、多品种、小批量生产己经成为21世纪的主导生产模式。相应地,制造企业正向着精益生产和敏捷制造的方向发展。在这种生产环境下,如何安排
随着互联网技术的迅速发展,网络上的资源日益丰富,各类搜索引擎应运而生,并迅速发展壮大。以百度,Google为代表的综合性搜索引擎搜索范围几乎涵盖了各个领域。但是,这些综合
计算机网络和多媒体技术的飞速发展,使得企业对于过程工业监测这一生产环节中的重要一环提出了越来越高的要求。研究并建立一套现代的过程工业监测平台,对生产过程的进行实时
自动程序设计一直是计算机科学的一个奋斗目标,而算法[1]是程序的灵魂,是解决问题的关键,是程序设计的基础和难点,要实现程序设计的自动化首先应该实现算法设计的自动化。但
数据库知识发现是(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,分类是其中的一个重要研究方向。决策树是分类中