基于谷歌距离的汉英词表概念映射研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:zhongyi02w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]本文对《汉语主题词表》(工程技术版)概念与英文超级科技词表概念的映射进行研究,建立优化的汉对英有序映射模式,并采用基于谷歌距离的语义相似度算法进行实验,计算英文词之间的语义距离,导入原有汉英映射信息。通过实验分析,获得了按相似度排序的汉英映射模式,实现了多个英文词汇与汉词的对应并由高到低排列出来。该方法获得的排序结果基本满足要求,部分词语需要人工修正。
  [关键词]语义相似度;汉语主题词表;谷歌距离;概念映射
  DOI:10.3969/j.issn.1008-0821.2015.03.001
  [中图分类号]TP391;G25 [文献标识码]A [文章编号]1008-0821(2015)03-0003-05
  词表映射研究是研究和建设跨语言信息检索(Cross Language Information Retrieval,CAJR)的基础,本文的目标是通过计算映射词语的相同程度来解决跨语言搜索结果的有序排列问题,其关键在于获取语义距离和改进现在的映射规则。研究双语言或多语言的CLIR是一个热门的话题,《汉语主题词表》(工程技术版)(以下简称《汉表》)与英文超级科技词表分别用于进行中外文科技文献的知识组织,而两者的相互映射正是为了实现对中外文文献资源的跨语言检索;考虑到两个词表知识体系的差异和语义映射的复杂性,本文不进行知识概念体系、词间关系和范畴体系等方面的语义映射,主要研究基于概念的映射模型和方法。
  本文以《汉表》的概念作为源(Source)概念,英文超级科技词表的概念作为目标(Target)概念,参考并修订W3C的词表映射规则,建立映射模型。《汉表》概念具有上下位、多层次关系,英文超级科技词表概念也是网状关系,在建立概念间映射关系时,只在距离最短、关系最近的概念间建立关系,没有必要将等同的概念重复给定向上或向下匹配的关系,按照需要,将词表的原词间关系导入映射信息即可确定新的映射关系。本文以标准谷歌距离(Normalized Google Distance)作为语义距离的基本计算方法,并设计了映射流程,在已有汉英词表的基础上,对映射进行排序,能有效地解决检索时汉英词语的匹配问题。在检索过程中,可以做到按相似度的高低呈现有序的检索结果,从而给用户更优的检索体验。本文通过程序进行演算获取实验结果,根据语义相似度进行排序,建立新的有序映射。
其他文献
分析化学技术的进步促进了分析微生物学的发展,开辟了微生物鉴定和检测的新途径.检测微生物中的某些生物标志物往往可以快速、准确地鉴定和检测微生物,在临床检验、环境监测
本文基于对牛羊养殖场、加工企业等开展的线上问卷调研,分析了新冠肺炎疫情对牛羊产业的影响,并结合存在问题,提出相关建议。短期来看,生产资料运输困难、牛羊周转滞缓、养殖
本文以集安市林业局辖区内林地为研究对象,对各类林型以样地的形式测定含磷量,测定结果可知集安市林业局辖区内林地含磷量最高的是阔叶混交林约为26639吨,占该地区含磷量总数
疯牛病是对牛海绵伏脑病(Bovine Spongiform Encephalopathy BSE)的简称,是一种慢性、具有传染性的致死性中枢神经系统疾病,英国于1985年4月首先发现该病,并于1986年11月定名
有机溶剂/去污剂处理技术已广泛用于血液制剂的病毒灭活.本文对此项技术用于血浆中病毒灭活的可靠性、处理血液制剂的安全性以及处理血浆的临床应用作了简要介绍.
生活化教学是高中思想政治新课程所倡导的一种教学模式,通过实施生活化教学,使师生的课堂生活更加丰满,充盈学生生活经历,丰富学生情感体验,为学生的可持续发展奠定良好的基础。
计算机时代所说的汉字标准化主要指汉字交换码的统一,是汉字规范的要素之一。汉字编码标准化经历了由国家标准到国际标准,再由国际标准实现为国家标准的过程。汉字编码标准目
目的:分析吸入布地奈德与全身使用糖皮质激素治疗2型糖尿病合并慢性阻塞性肺疾病急性加重(AECOPD)患者的疗效。方法:将2010年1月1日至2017年4月1日我科收治的2型糖尿病合并AECOPD