基于组合语义度量的词义消歧混合蝙蝠算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:w__hailin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据文本内容为不明确词义的词汇赋予一个合适词义称为词义消歧(WSD)。WSD的目标是提高一些实际应用场景中的精确度,如信息提取、自动汇总或机器翻译等,它是通过一种蝙蝠算法(BA)的智能计算方法来实现的。BA来自元启发式方法的群体智能家族。由于BA是一种基于集群的算法,因此它在探索搜索空间的广泛领域中有着巨大的潜力,这也使得它在多样化过程中非常高效。为了进一步改进搜索算法,采用了一种名为爬山算法(HC)的局部搜索算子,去平衡勘探和开发两方面。局部搜索算法试图通过加强其邻域的搜索过程来改进潜在的解决方案。该算法能够优化输入文本中单词的语义值。所提出的算法产生多个数值解,其中解中的每个数字对应于给定文本中某个单词的意义。每个数字和它对应的单词通过语义度量来估计它和其他词汇的语义值。在本研究中,语义度量依赖于LeacockAndChodorow算法(LCH)和Lesk算法(eLesk)。LCH方法通过考虑一个词汇数据库中的特定层次之间的最短路径来度量两个概念之间的语义相似性,本研究使用WordNet作为词汇数据库。虽然LCH算法在语义估计中包含给定概念的信息内容,然而,LCH只能在动词或名词词类中度量两个概念的相似度,因此将eLesk与LCH结合起来来评价所有词类。eLesk算法通过计算两个概念之间的重叠性来量化它们之间的相关性。本文设计的算法在每个阶段都进行了测试,其中,单独对BA进行了局部搜索实验,以显示后者的影响。另外,将LCH算法和eLesk算法两者分别,或者将两者结合到一起进行语义度量实验,以此来验证两者结合起来度量的有效性。该算法在一定的基准数据集上进行了测试。实验结果表明,相比其他相关算法,提出的算法可以获得更好的性能。因此,本研究为解决WSD问题提供了一种有效的方法。
  解决WSD问题的第一步是表征问题的解。在本研究中,将WSD解表示为数值数据,利用群搜寻演算法求解,数值对应输入文本的词义值。这些值称为解变量,并且放在一个向量中作为搜索算法的初始解。每个解变量都有自己的边界,在解决问题时必须考虑这些边界。这些边界是从词汇数据库中获得的,本研究使用的是WordNet词汇数据库。WordNet是一个常用的语言资源库,用于寻找英语概念的分类和网络关系。WordNet里的每个单词的词义都有注释,所以这个数据库成为许多应用的主要词汇数据库。一些词汇如名词、形容词、副词和动词等的详细信息都包含在这个词汇数据库里了。此外,相互关联的概念形成了同义词集和。同义词集通常表示相似的词义,例如:(car,auto,automobile,machine,motorcar)是一个同义词集和,他们有一个共同的释义:“四轮机动车,通常由内燃机推动”,所以这些单词在概念或词义上是一个集和。在本研究中,这些词将被互换使用。WordNet通过概念之间的不同关系来组织这些相关概念;它提供了这些概念的同义词组。所有WordNet关系都是一种词类。当第一个概念是另一个概念的一种类型时,两个概念之间的关系称为上义词,就像汽车是机动车的一种。同时,WordNet有个特点是名词概念的宽层次性,这些名词概念的层次结构也许就是WordNet最为显著的特征,它们占名词关系总数的70%以上。动词也有类似的层次结构,称为对流层学。例如:行走是移动的方式词。名词甚至动词的层次结构可以用树表示,一般概念表示树根,这种概念的具体类型就是它的叶子。在本研究中,使用WordNet来提供每个不间断字词的词义数。此外,本研究所使用的语义量度也依赖于WordNet提供的文本中每个词的关系和注释。
  使用WordNet设置边界后,下一步是计算初始解。在本研究中,使用相似性和相关性方法来进行解的估计,具体是LCH和eLesk算法。改进后的LCH算法只适用于语音的名词和动词部分,而eLesk可以度量语音所有成分的相关性。设置适应度函数是WSD问题求解的初始步骤。该求解方法采用两种元启发式搜索算法,每种算法都具有特殊的搜索能力,即蝙蝠算法(BA)和爬山算法(HC)。蝙蝠算法模拟蝙蝠的回声定位,该算法具有效率高、结构简单等优点,已成功应用于各个领域。蝙蝠利用声纳混响来感应和避开障碍物。通常,声脉冲转换成一种从障碍物反射的频率,蝙蝠利用从发射到反射的时间延迟来导航,它们通常发出短而响亮的声音脉冲,脉冲频率为每秒10到20次,在撞击和反射之后,蝙蝠会将自己的脉冲音波转换成有益的信息来估量猎物的距离。蝙蝠利用的波长范围从0.7mm到17mm不等,频率为20-500KHz。要执行该算法,必须确定脉冲频率和速率。脉冲速率可以在0到1范围内随机确定,其中0意味着没有发射,1意味着蝙蝠的发射是最大值。依据以下三条规则,蝙蝠的行为被用来形成了蝙蝠算法(BA)。第一,所有蝙蝠都利用回声定位来感知距离,它们也能分辨食物/猎物和背景障碍之间的差异。第二,每个蝙蝠随机飞行在位置xi和速度vi的频率fmin,通过波的波长λ和响度A0来搜索猎物。它们可以根据目标的距离自动改变发射脉冲的波长(或频率),以及脉冲发射的速率r∈[0,1]。最后,尽管响度可以在许多方面变化,BA假设响度从大(正)a0变化到最小常值amin。基于上述原理,BA利用三个参数控制搜索过程,即频率、脉冲率和响度。实际上,频率在特定范围内[fmin,fmax],该范围与波长范围[λmin,λmax]一致。在这项研究中,遵循了最初的BA设置,将频率设置在[0,fmax]范围内,其中fmax=100,脉冲速率从零处(没有脉冲)变化到最大脉冲速率。在BA中,脉冲率和响度是动态变量,必须根据特定公式迭代更新。一旦蝙蝠发现猎物,脉冲频率就会增加,而响度则会降低,响度可以设置为任何适合该问题的值。
  在三个数据集上对该算法进行了评估,分别是SemCor、Senseval-2和Senseval-3。SemCor(Semantic Concordance)是Brown Corpus的一部分,它是用WordNet1.6语义标记的。此外,该语料库由500个文件组成,186个文件对其动词、名词、形容词等的所有出现词汇进行了语义标注。SemCor语料库中的每个文件包含特定数量的句子,每个句子都依次包含按行排列的单词数;每行包含一个单词。词性、词根、词义数和语义词本身都构成一个句子中的一行。事实上,对于SemCor文件的独特结构,使用预定义库至关重要。为此,本研究使用java库中的JSemCor来检索SemCor语句的每行内容。JSemCor是完全免费的,可以在线获得:https://projects.csail.mit.edu/jwi/。这个库提供了很多广泛使用的函数,可以提取行的每个部分并分别返回。Senseval-2包含关于12种语言的任务:巴斯克语、捷克语、荷兰语、英语、爱沙尼亚语、汉语、丹麦语、意大利语、日语、韩语、西班牙语和瑞典语。约有35个小组参加,提出多达94个系统。一些团队在多个任务中共享,并授权对跨任务和语言性能进行分析。此外,在正式比赛结束后,一些任务中的一些词汇被选为英语单词的“翻译等价物”来进行进一步的实验。SENSEVAL-3,其中27个小组参加了英语词汇样本任务,提出了47个系统;在所有词汇的任务中,16个小组提出了26个系统。
  本研究的主要目的是通过研究蝙蝠算法(Bat)在词义消歧任务(WSD)中的性能来解决词义歧义问题。无监督的WSD方法通常基于窗口词汇的选择,这产生不相关的噪声词。本研究强调利用混合模式强化名词词性的WSD任务。提出的混合模型利用一种全局搜索算法(蝙蝠算法)来寻找不同性质的解。此外,爬山算法(HC)作为一种局部搜索算法,也被用于改进邻域搜索。提出方法以语义相似度和语义相关度作为目标函数。对Lesk,LCH和两者组合算法进行了一系列实验。另外,对不同大小窗口进行实验来测试宽上下文和窄上下文对WSD任务的影响。同一些相关工作进行了实验比较。实验结果显示提出的最优F值达到了65.58%。这一结果与相关工作中使用的混合遗传算法得到的最高F值接近。本文提出了一种利用混合蝙蝠算法(Bat)进行词义消歧的方法。
  总体而言,混合蝙蝠算法采用相似性和相关性相结合作为适应度函数的方法来寻找有效解,取得了良好的效果。蝙蝠算法提供了一个问题空间的探索方案,可以搜索不同性质的各种解决方案。而局部搜索算法则致力于将搜索集中在搜索空间中可能性较大的区域。利用一种蝙蝠算法和爬山算法混合的方法,表明了局部搜索方法(HC算法)对BA算法搜索过程的影响。局部搜索的性能在搜索过程的各个阶段都有体现。此外,这种性能也在不同的窗口大小上有所体现。不过,仍可进行进一步研究,以改进提出的算法。类似地,研究更多的语义相似度和语义相关度方法将对F值产生潜在的增强作用。另外,对不同的组合度量和使用不同类型的相似度也进行了实验。此外,寻找其他的元启发式方法,如灰狼优化算法(GWO),可能会比所提出的蝙蝠算法在识别最佳语义方面具有更优越的性能。
其他文献
容易产生不可控裂纹是CO2激光切割玻璃的主要问题。因此研究新的玻璃切割方法具有重要的理论意义与工程价值。本文对激光切割平板玻璃进行传热和应力数值模拟,研究激光切割过程中裂纹形成的机理、分析减少裂纹的措施。本文主要工作如下:(1)建立了激光切割玻璃的一维传热数学模型,建立了工件的切割曲线方程,通过求解切割曲线方程得到了激光切割玻璃的极限速度与激光功率的关联式,将理论分析结果与现有实验结果进行对比,证
学位
近年来,随着科学技术的飞速发展,网络系统不断朝着向大规模、高复杂和高度智能化方向发展,系统的组成单元也从只具备单一功能的受控对象进一步转化成集成具有一定传感、通信、计算、执行能力的智能体。网络系统领域的这些变革和发展,最终发展形成了现在的复杂系统理论。受此影响,多智能体系统理论就此应运而生并成为解决复杂系统问题中一类重要的理论。由于在面对动态的以及开放环境中的优化问题,传统的集中式处理方法已经无法
近些年,由于多智能体系统的分布式协调控制在无人机编队控制、人造卫星姿态控制、多机器人群集控制等工业和军事领域中具有广阔的应用前景,使其得到了越来越多学者的密切关注。多智能体系统的一致性问题是智能体间分布式协调合作的关键,吸引了计算机科学、控制工程等领域专家学者的浓厚兴趣。同时,在控制工程领域,脉冲控制因其具有控制量小、收敛性能高、控制成本低等优点,已经在复杂网络的研究中广泛运用。多智能体系统作为一
近年来,无人机在军事领域和民用领域的应用越来越广,特别是四旋翼无人机,由于结构简单以及飞行方式灵活,成为了无人机领域的一个研究热点。然而,四旋翼无人机是一种典型的欠驱动系统,并且具有强非线性和强耦合的特点,同时易受外界风扰的影响,因此对四旋翼无人机进行精确地建模十分困难。本文以四旋翼无人机为研究平台,开展了基于LADRC的四旋翼无人机飞行控制研究。论文的主要工作和创新点如下:  (1)首先考虑动力
学位
随着科学技术的发展,工程控制系统的规模和复杂性不断增加,出现故障的机率也随之增大。任何类型故障的发生都可能导致整个系统性能下降,甚至影响系统稳定性,造成不可预期的损失。因此,提高控制系统的安全性和可靠性变得尤为重要,容错控制的出现和发展为解决这一问题提供了有效途径。考虑到实际工程系统几乎都是非线性系统,因此研究非线性系统的容错控制问题非常有意义。由于非线性系统本身的复杂性,其控制理论的发展并不完善
云计算已经被广泛应用于各个领域,然而随着物联网技术的发展,云计算面临着很多问题亟需解决。由于造价(建设成本)昂贵,云计算不能实现大范围部署,不能及时处理物联网大量终端设备的数据,无法满足物联网中延迟敏感和位置感知的应用需求。Cisco预测全球连接设备的数量在2020年将达到500亿,随着物联网设备的快速增加,海量数据将被传输到数据中心进行处理,2020年底,全球数据中心每年的IP流量将达到15.3
学位
随着中国经济社会的快速发展和城镇化进程的快速推进,交通基础设施得到了大的改善。私家车成为人民对美好生活的交通需要,市民驾驶私家车出行已成为重要的出行方式。同时,随着网络的普及和通信技术的快速发展,各种车载智能传感设备普遍应用,如:智能车机、云后视镜、OBD盒子等等。通过这些智能传感设备,可获取大量的车辆移动轨迹等时空数据,为感知市民的出行信息成为了可能。在大数据时代,开展私家车轨迹数据相关研究,深
学位
随着高性能计算(High-Performance Computing,HPC)技术的发展,高性能计算机的性能有了质的飞跃,但其能耗也相应的快速增长。大规模计算集群系统消耗了越来越多的能量,在运营成本、环境和系统可用性等方面产生各种问题。目前,超级计算和HPC计算机的功率消耗已达到兆瓦级别,排名第一的“Summit”已达到9.783兆瓦。因此,HPC计算机所面临的能源消耗问题已成为该领域发展的一个重
把具有不同关键等级的多个功能集成于同一嵌入式计算平台,以平衡系统中越来越复杂的功能与受限的计算资源、硬件尺寸、功耗以及成本等资源之间的矛盾,是当代嵌入式系统发展的重要趋势。这种系统被称为混合关键级系统。在混合关键级系统的调度中,一方面需要充分考虑功能的关键等级,通过保证具有较高关键等级的功能的及时完成,以满足系统的安全性和可靠性要求,另一方面需要通过对系统资源的有效配置,优化具有低关键等级的功能调
现实世界中充斥着大量的信息,而人类对外界信息的感知大部分都是依靠人类的视觉处理,这主要源自于人类视觉系统(HumanVisualSystem,简称HVS)具有强大的信息处理与感知能力。对于一个给定的场景,人类的注意力往往会关注在一些比较重要的目标上,从而自动地忽略掉大量无足轻重的信息。在场景中,能够吸引人类注意力的目标被称为显著性目标。面对图像数量每天以指数增长的现状,科学家模拟人类的视觉机制展开