语义增强的关系相似度度量算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:shagen_gw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对词语之间和词对之间的关系进行量化测度是自然语言处理的重要研究内容之一,相关研究成果在信息检索、语义消歧、机器翻译等自然语言处理领域都有广泛的应用。近年来,词语之间的语义相关度度量研究已经取得了丰硕的成果,词对之间的关系相似度度量研究成为业界研究热点。现有的词对之间的关系相似度度量方法大致分为两类:基于语义资源的方法和基于统计的方法。基于语义资源的方法利用语义词典或语义网计算词对之间的关系相似度,这种方法需要极大程度地依赖于词汇或义原间的关系体系,较难满足实际的应用需要,并且根据需求手工构建词典的成本较高。基于统计的方法属于数据驱动方式,其基本思想是从大规模的语料中(如Wikipedia)统计与词对共现的上下文信息以计算词对之间的关系相似度。这种方法具有数据稀疏问题和实验耗费时间长问题;这种方法仅仅基于词对的共现,并不能真正挖掘出词对间的语义关系;另外,基于统计的有监督的关系相似度算法需要人工标注语料,成本较高。本论文针对现有的词对间关系相似度算法的不足,首先提出了基于潜在语义检索的词对关系相似度算法(LSR),针对LSR算法实验准确率不高的缺点,进一步提出了基于语义增强的词对关系相似度算法(SSR)。本论文的主要研究成果如下:首先,对目前的英文词对关系相似度算法进行研究,分析现有英文词对关系相似度算法的优点和不足,提出一种基于潜在语义检索的词对关系相似度算法,即LSR算法,为了验证LSR算法的性能,采用经典测试集数据(即374道SAT问题)对本论文提出的LSR算法进行验证。实验结果显示LSR算法在时间性能方面具有明显的优势:实验消耗时间从原来的九天(潜在关系分析算法的实验时间)减少为现在的12小时。其次,针对LSR算法准确率不够高的不足以及基于语义资源的词语语义相关度算法准确率高的优点,设计了一种基于语义增强的词对关系相似度算法,即SSR算法,实验结果表明SSR算法在实验准确率方面有了较大的改善,从LSR算法的45.7%提高到SSR算法的52.8%。
其他文献
油藏历史拟合是油藏数值模拟的关键环节。传统历史拟合存在成本高、效果差等问题。支持向量机是一种新的机器学习方法,它具有推广能力强、非线性和高维数等一系列优点。鉴于
随着网络对软件开发目标的影响,B/S架构成为中小型软件项目的主要运行模式。由于B/S架构本身的特点,应用系统的用户界面与业务逻辑分别运行于不同的运行环境中,出于降低开发成本
随着计算机技术的快速发展,图像处理技术在人们生活中得到了广泛的应用。经过特定算法处理后的图像,给人们带来更精彩的视觉效果,让交通、生活更加便利,提高了工作效率。近年
学位
随着全球化进程的加快,Web作为一种重要的沟通手段受到的关注越来越多,对Web服务描述的正确性投入的精力随之增加。BPEL(Business Process Execution Language)作为描述Web服
农业科技成果转化资金项目于2001年开始使用了单机C/S版软件,于2006年使用项目上报、受理、审理、监理、验收为一体的网络管理系统,使农业科技成果转化资金项目全面实行数字
随着计算机技术和网络通信技术的飞速发展,以及多媒体技术的广泛应用,海量的各种类型的信息正在被人们采集、传输和应用。多媒体信息的表现方式除了最初单一的文本方式外,还
信用风险是现代商业银行面临的最主要的风险之一,也是导致银行破产的最常见因为之一。我国商业银行信用信息化建设滞后、信息不对称,导致银行实际操作过程中的高风险、高成本
随着知识的爆炸性增长,如何从浩瀚的信息中找到用户最需要的部分已成为一大难题。为解决这个问题,信息检索和推荐系统从不同的层面提供了很好的帮助。信息检索通过分析文档内
随着计算机网络的发展和网络的开放性、共享性及互连程度的扩大,因特网日益成为信息交换的主要手段,与此同时,一些网络新业务的不断兴起,如电子商务(Electronic Commerce)、