汉语词语语义相似度度量及其在跨语言信息检索中的应用研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:meirumen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言理解的一项基础工作,词语语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等。本文的核心内容是汉语词语语义相似度算法研究以及如何将其应用于跨语言信息检索(Cross-Language Information Retrieval, CLIR)领域。本文首先对语义相似度度量算法进行综述,然后重点描述基于HowNet的语义相似度度量算法,提出根据知识词典描述语言(Knowledge Dictionary Mark-up Language, KDML)的结构特性将词语语义相似度分为三部分进行计算,每部分采用最大匹配的算法,同时加入义原深度信息以区别对待不同信息含量的义原。较以往同类算法,其计算结果具有区分度,更加符合人的主观感觉。本文尝试将所建立的汉语语义相似度度量模式应用于跨语言信息检索系统。跨语言信息检索结合传统文本信息检索技术和机器翻译技术,在多方面涉及到语义问题,是语义相似度良好的切入点。两者的结合主要体现在两方面:(1)将语义相似度度量应用于查询翻译,利用语义相似度对查询关键词进行消歧翻译,提高翻译质量;(2)将语义相似度应用于查询扩展,使扩展内容与原查询具有更高相关性,以提高检索的召回率和准确率。本文提出相对客观的评价标准,如为单独衡量词义消歧的性能,而使用第三届词义消歧系统评价会议(The 3rd Evaluating Word Sense Disambiguation Systems, SENSEVAL-3)语料进行测试;为衡量应用语义相似度于跨语言检索后的性能,又使用第九届文本检索会议(The 9th Text Retrieval Conference, TREC-9) CLIR评价任务的查询集、语料库和结果集进行评估。这使得我们的实验结果相对公正客观,具有一定可比性。本文对原有英汉跨语言信息检索系统进行一定程度的改进,使得各种相关算法都可方便地在系统中进行集成,成为一个研究跨语言信息检索的实验平台,其系统的设计思想充分体现模块化和扩展性。综上,本文通过综合分析主流的语义相似度算法,而提出一种新的基于HowNet的汉语语义相似度算法,并给出其在英汉跨语言信息检索中的尝试性应用,希望能给相关领域的研究者有所借鉴。
其他文献
随着在线社交网站的巨大成功和无线技术的不断成熟,一类融合社会性和移动性的新型网络形式——移动社交网络(Mobile Social Networks, MSN)便开始逐步诞生。在MSN中存在几个
随着网络技术的持续发展,基于网络的开放式应用不断涌现,这类应用的用户群体呈开放和动态的特点,且通常与应用系统不属于一个信任域,这对应用实施访问控制和授权提出了挑战。解决
在这个客户资源弥足珍贵的时代,什么才是企业的核心竞争力呢?对于所有的企业而言,至少有一项不可或缺的,那就是客户关系管理的能力:把一次性客户转化为长期客户,把长期客户转化为终
时间序列数据是一类重要的复杂数据对象,广泛存在于自然现象和社会经济等领域中。应用数据挖掘技术分析时间序列数据能够发现时间序列中所蕴涵的知识,因此时间序列的数据挖掘
随着便携式设备(手机、PAD、笔记本等)的发展和普及以及短距离通信技术的成熟应用,越来越多的人通过移动设备自发地组织成非连续的、延迟容忍的无线自组织网络,这种特殊的自
随着网络应用技术的不断发展,门限密码体制以其面向群体的优势得到广泛的应用。在门限密码体制中,签名者和解密者都不是指单个实体,而是一个群体。门限密码体制主要包括门限数字
大规模城市外景虚拟漫游是虚拟现实技术应用的重要分支之一,在许多领域都得到了广泛应用。而要将其实现所需要的最为关键的技术之一就是LOD(Level of Details,层次细节)静态L
随着生活水平的提高,私家车保有量激增,消费者在关注性能同时也开始注重内部饰品质量。皮革作为其内部座椅等主要器件的重要材料,其品质被严格要求,但由于牛皮等皮革原材料在
本文介绍了一套结合多核技术的基于内容图像检索系统,该系统利用多线程技术,充分发挥硬件优势,实现了流水线并行与数据并行两种形式相结合的图像并行处理技术,提高了系统的处
本文使用了遗传算法来解决军队仓库的货位优化问题。大多数的军队仓库在货位管理上依靠的还是传统的手工纸上作业,因而操作速度慢,工作延续性差。在军队仓库的货位优化管理中