论文部分内容阅读
根据文本内容为不明确词义的词汇赋予一个合适词义称为词义消歧(WSD)。WSD的目标是提高一些实际应用场景中的精确度,如信息提取、自动汇总或机器翻译等,它是通过一种蝙蝠算法(BA)的智能计算方法来实现的。BA来自元启发式方法的群体智能家族。由于BA是一种基于集群的算法,因此它在探索搜索空间的广泛领域中有着巨大的潜力,这也使得它在多样化过程中非常高效。为了进一步改进搜索算法,采用了一种名为爬山算法(HC)的局部搜索算子,去平衡勘探和开发两方面。局部搜索算法试图通过加强其邻域的搜索过程来改进潜在的解决方案。该算法能够优化输入文本中单词的语义值。所提出的算法产生多个数值解,其中解中的每个数字对应于给定文本中某个单词的意义。每个数字和它对应的单词通过语义度量来估计它和其他词汇的语义值。在本研究中,语义度量依赖于LeacockAndChodorow算法(LCH)和Lesk算法(eLesk)。LCH方法通过考虑一个词汇数据库中的特定层次之间的最短路径来度量两个概念之间的语义相似性,本研究使用WordNet作为词汇数据库。虽然LCH算法在语义估计中包含给定概念的信息内容,然而,LCH只能在动词或名词词类中度量两个概念的相似度,因此将eLesk与LCH结合起来来评价所有词类。eLesk算法通过计算两个概念之间的重叠性来量化它们之间的相关性。本文设计的算法在每个阶段都进行了测试,其中,单独对BA进行了局部搜索实验,以显示后者的影响。另外,将LCH算法和eLesk算法两者分别,或者将两者结合到一起进行语义度量实验,以此来验证两者结合起来度量的有效性。该算法在一定的基准数据集上进行了测试。实验结果表明,相比其他相关算法,提出的算法可以获得更好的性能。因此,本研究为解决WSD问题提供了一种有效的方法。
解决WSD问题的第一步是表征问题的解。在本研究中,将WSD解表示为数值数据,利用群搜寻演算法求解,数值对应输入文本的词义值。这些值称为解变量,并且放在一个向量中作为搜索算法的初始解。每个解变量都有自己的边界,在解决问题时必须考虑这些边界。这些边界是从词汇数据库中获得的,本研究使用的是WordNet词汇数据库。WordNet是一个常用的语言资源库,用于寻找英语概念的分类和网络关系。WordNet里的每个单词的词义都有注释,所以这个数据库成为许多应用的主要词汇数据库。一些词汇如名词、形容词、副词和动词等的详细信息都包含在这个词汇数据库里了。此外,相互关联的概念形成了同义词集和。同义词集通常表示相似的词义,例如:(car,auto,automobile,machine,motorcar)是一个同义词集和,他们有一个共同的释义:“四轮机动车,通常由内燃机推动”,所以这些单词在概念或词义上是一个集和。在本研究中,这些词将被互换使用。WordNet通过概念之间的不同关系来组织这些相关概念;它提供了这些概念的同义词组。所有WordNet关系都是一种词类。当第一个概念是另一个概念的一种类型时,两个概念之间的关系称为上义词,就像汽车是机动车的一种。同时,WordNet有个特点是名词概念的宽层次性,这些名词概念的层次结构也许就是WordNet最为显著的特征,它们占名词关系总数的70%以上。动词也有类似的层次结构,称为对流层学。例如:行走是移动的方式词。名词甚至动词的层次结构可以用树表示,一般概念表示树根,这种概念的具体类型就是它的叶子。在本研究中,使用WordNet来提供每个不间断字词的词义数。此外,本研究所使用的语义量度也依赖于WordNet提供的文本中每个词的关系和注释。
使用WordNet设置边界后,下一步是计算初始解。在本研究中,使用相似性和相关性方法来进行解的估计,具体是LCH和eLesk算法。改进后的LCH算法只适用于语音的名词和动词部分,而eLesk可以度量语音所有成分的相关性。设置适应度函数是WSD问题求解的初始步骤。该求解方法采用两种元启发式搜索算法,每种算法都具有特殊的搜索能力,即蝙蝠算法(BA)和爬山算法(HC)。蝙蝠算法模拟蝙蝠的回声定位,该算法具有效率高、结构简单等优点,已成功应用于各个领域。蝙蝠利用声纳混响来感应和避开障碍物。通常,声脉冲转换成一种从障碍物反射的频率,蝙蝠利用从发射到反射的时间延迟来导航,它们通常发出短而响亮的声音脉冲,脉冲频率为每秒10到20次,在撞击和反射之后,蝙蝠会将自己的脉冲音波转换成有益的信息来估量猎物的距离。蝙蝠利用的波长范围从0.7mm到17mm不等,频率为20-500KHz。要执行该算法,必须确定脉冲频率和速率。脉冲速率可以在0到1范围内随机确定,其中0意味着没有发射,1意味着蝙蝠的发射是最大值。依据以下三条规则,蝙蝠的行为被用来形成了蝙蝠算法(BA)。第一,所有蝙蝠都利用回声定位来感知距离,它们也能分辨食物/猎物和背景障碍之间的差异。第二,每个蝙蝠随机飞行在位置xi和速度vi的频率fmin,通过波的波长λ和响度A0来搜索猎物。它们可以根据目标的距离自动改变发射脉冲的波长(或频率),以及脉冲发射的速率r∈[0,1]。最后,尽管响度可以在许多方面变化,BA假设响度从大(正)a0变化到最小常值amin。基于上述原理,BA利用三个参数控制搜索过程,即频率、脉冲率和响度。实际上,频率在特定范围内[fmin,fmax],该范围与波长范围[λmin,λmax]一致。在这项研究中,遵循了最初的BA设置,将频率设置在[0,fmax]范围内,其中fmax=100,脉冲速率从零处(没有脉冲)变化到最大脉冲速率。在BA中,脉冲率和响度是动态变量,必须根据特定公式迭代更新。一旦蝙蝠发现猎物,脉冲频率就会增加,而响度则会降低,响度可以设置为任何适合该问题的值。
在三个数据集上对该算法进行了评估,分别是SemCor、Senseval-2和Senseval-3。SemCor(Semantic Concordance)是Brown Corpus的一部分,它是用WordNet1.6语义标记的。此外,该语料库由500个文件组成,186个文件对其动词、名词、形容词等的所有出现词汇进行了语义标注。SemCor语料库中的每个文件包含特定数量的句子,每个句子都依次包含按行排列的单词数;每行包含一个单词。词性、词根、词义数和语义词本身都构成一个句子中的一行。事实上,对于SemCor文件的独特结构,使用预定义库至关重要。为此,本研究使用java库中的JSemCor来检索SemCor语句的每行内容。JSemCor是完全免费的,可以在线获得:https://projects.csail.mit.edu/jwi/。这个库提供了很多广泛使用的函数,可以提取行的每个部分并分别返回。Senseval-2包含关于12种语言的任务:巴斯克语、捷克语、荷兰语、英语、爱沙尼亚语、汉语、丹麦语、意大利语、日语、韩语、西班牙语和瑞典语。约有35个小组参加,提出多达94个系统。一些团队在多个任务中共享,并授权对跨任务和语言性能进行分析。此外,在正式比赛结束后,一些任务中的一些词汇被选为英语单词的“翻译等价物”来进行进一步的实验。SENSEVAL-3,其中27个小组参加了英语词汇样本任务,提出了47个系统;在所有词汇的任务中,16个小组提出了26个系统。
本研究的主要目的是通过研究蝙蝠算法(Bat)在词义消歧任务(WSD)中的性能来解决词义歧义问题。无监督的WSD方法通常基于窗口词汇的选择,这产生不相关的噪声词。本研究强调利用混合模式强化名词词性的WSD任务。提出的混合模型利用一种全局搜索算法(蝙蝠算法)来寻找不同性质的解。此外,爬山算法(HC)作为一种局部搜索算法,也被用于改进邻域搜索。提出方法以语义相似度和语义相关度作为目标函数。对Lesk,LCH和两者组合算法进行了一系列实验。另外,对不同大小窗口进行实验来测试宽上下文和窄上下文对WSD任务的影响。同一些相关工作进行了实验比较。实验结果显示提出的最优F值达到了65.58%。这一结果与相关工作中使用的混合遗传算法得到的最高F值接近。本文提出了一种利用混合蝙蝠算法(Bat)进行词义消歧的方法。
总体而言,混合蝙蝠算法采用相似性和相关性相结合作为适应度函数的方法来寻找有效解,取得了良好的效果。蝙蝠算法提供了一个问题空间的探索方案,可以搜索不同性质的各种解决方案。而局部搜索算法则致力于将搜索集中在搜索空间中可能性较大的区域。利用一种蝙蝠算法和爬山算法混合的方法,表明了局部搜索方法(HC算法)对BA算法搜索过程的影响。局部搜索的性能在搜索过程的各个阶段都有体现。此外,这种性能也在不同的窗口大小上有所体现。不过,仍可进行进一步研究,以改进提出的算法。类似地,研究更多的语义相似度和语义相关度方法将对F值产生潜在的增强作用。另外,对不同的组合度量和使用不同类型的相似度也进行了实验。此外,寻找其他的元启发式方法,如灰狼优化算法(GWO),可能会比所提出的蝙蝠算法在识别最佳语义方面具有更优越的性能。
解决WSD问题的第一步是表征问题的解。在本研究中,将WSD解表示为数值数据,利用群搜寻演算法求解,数值对应输入文本的词义值。这些值称为解变量,并且放在一个向量中作为搜索算法的初始解。每个解变量都有自己的边界,在解决问题时必须考虑这些边界。这些边界是从词汇数据库中获得的,本研究使用的是WordNet词汇数据库。WordNet是一个常用的语言资源库,用于寻找英语概念的分类和网络关系。WordNet里的每个单词的词义都有注释,所以这个数据库成为许多应用的主要词汇数据库。一些词汇如名词、形容词、副词和动词等的详细信息都包含在这个词汇数据库里了。此外,相互关联的概念形成了同义词集和。同义词集通常表示相似的词义,例如:(car,auto,automobile,machine,motorcar)是一个同义词集和,他们有一个共同的释义:“四轮机动车,通常由内燃机推动”,所以这些单词在概念或词义上是一个集和。在本研究中,这些词将被互换使用。WordNet通过概念之间的不同关系来组织这些相关概念;它提供了这些概念的同义词组。所有WordNet关系都是一种词类。当第一个概念是另一个概念的一种类型时,两个概念之间的关系称为上义词,就像汽车是机动车的一种。同时,WordNet有个特点是名词概念的宽层次性,这些名词概念的层次结构也许就是WordNet最为显著的特征,它们占名词关系总数的70%以上。动词也有类似的层次结构,称为对流层学。例如:行走是移动的方式词。名词甚至动词的层次结构可以用树表示,一般概念表示树根,这种概念的具体类型就是它的叶子。在本研究中,使用WordNet来提供每个不间断字词的词义数。此外,本研究所使用的语义量度也依赖于WordNet提供的文本中每个词的关系和注释。
使用WordNet设置边界后,下一步是计算初始解。在本研究中,使用相似性和相关性方法来进行解的估计,具体是LCH和eLesk算法。改进后的LCH算法只适用于语音的名词和动词部分,而eLesk可以度量语音所有成分的相关性。设置适应度函数是WSD问题求解的初始步骤。该求解方法采用两种元启发式搜索算法,每种算法都具有特殊的搜索能力,即蝙蝠算法(BA)和爬山算法(HC)。蝙蝠算法模拟蝙蝠的回声定位,该算法具有效率高、结构简单等优点,已成功应用于各个领域。蝙蝠利用声纳混响来感应和避开障碍物。通常,声脉冲转换成一种从障碍物反射的频率,蝙蝠利用从发射到反射的时间延迟来导航,它们通常发出短而响亮的声音脉冲,脉冲频率为每秒10到20次,在撞击和反射之后,蝙蝠会将自己的脉冲音波转换成有益的信息来估量猎物的距离。蝙蝠利用的波长范围从0.7mm到17mm不等,频率为20-500KHz。要执行该算法,必须确定脉冲频率和速率。脉冲速率可以在0到1范围内随机确定,其中0意味着没有发射,1意味着蝙蝠的发射是最大值。依据以下三条规则,蝙蝠的行为被用来形成了蝙蝠算法(BA)。第一,所有蝙蝠都利用回声定位来感知距离,它们也能分辨食物/猎物和背景障碍之间的差异。第二,每个蝙蝠随机飞行在位置xi和速度vi的频率fmin,通过波的波长λ和响度A0来搜索猎物。它们可以根据目标的距离自动改变发射脉冲的波长(或频率),以及脉冲发射的速率r∈[0,1]。最后,尽管响度可以在许多方面变化,BA假设响度从大(正)a0变化到最小常值amin。基于上述原理,BA利用三个参数控制搜索过程,即频率、脉冲率和响度。实际上,频率在特定范围内[fmin,fmax],该范围与波长范围[λmin,λmax]一致。在这项研究中,遵循了最初的BA设置,将频率设置在[0,fmax]范围内,其中fmax=100,脉冲速率从零处(没有脉冲)变化到最大脉冲速率。在BA中,脉冲率和响度是动态变量,必须根据特定公式迭代更新。一旦蝙蝠发现猎物,脉冲频率就会增加,而响度则会降低,响度可以设置为任何适合该问题的值。
在三个数据集上对该算法进行了评估,分别是SemCor、Senseval-2和Senseval-3。SemCor(Semantic Concordance)是Brown Corpus的一部分,它是用WordNet1.6语义标记的。此外,该语料库由500个文件组成,186个文件对其动词、名词、形容词等的所有出现词汇进行了语义标注。SemCor语料库中的每个文件包含特定数量的句子,每个句子都依次包含按行排列的单词数;每行包含一个单词。词性、词根、词义数和语义词本身都构成一个句子中的一行。事实上,对于SemCor文件的独特结构,使用预定义库至关重要。为此,本研究使用java库中的JSemCor来检索SemCor语句的每行内容。JSemCor是完全免费的,可以在线获得:https://projects.csail.mit.edu/jwi/。这个库提供了很多广泛使用的函数,可以提取行的每个部分并分别返回。Senseval-2包含关于12种语言的任务:巴斯克语、捷克语、荷兰语、英语、爱沙尼亚语、汉语、丹麦语、意大利语、日语、韩语、西班牙语和瑞典语。约有35个小组参加,提出多达94个系统。一些团队在多个任务中共享,并授权对跨任务和语言性能进行分析。此外,在正式比赛结束后,一些任务中的一些词汇被选为英语单词的“翻译等价物”来进行进一步的实验。SENSEVAL-3,其中27个小组参加了英语词汇样本任务,提出了47个系统;在所有词汇的任务中,16个小组提出了26个系统。
本研究的主要目的是通过研究蝙蝠算法(Bat)在词义消歧任务(WSD)中的性能来解决词义歧义问题。无监督的WSD方法通常基于窗口词汇的选择,这产生不相关的噪声词。本研究强调利用混合模式强化名词词性的WSD任务。提出的混合模型利用一种全局搜索算法(蝙蝠算法)来寻找不同性质的解。此外,爬山算法(HC)作为一种局部搜索算法,也被用于改进邻域搜索。提出方法以语义相似度和语义相关度作为目标函数。对Lesk,LCH和两者组合算法进行了一系列实验。另外,对不同大小窗口进行实验来测试宽上下文和窄上下文对WSD任务的影响。同一些相关工作进行了实验比较。实验结果显示提出的最优F值达到了65.58%。这一结果与相关工作中使用的混合遗传算法得到的最高F值接近。本文提出了一种利用混合蝙蝠算法(Bat)进行词义消歧的方法。
总体而言,混合蝙蝠算法采用相似性和相关性相结合作为适应度函数的方法来寻找有效解,取得了良好的效果。蝙蝠算法提供了一个问题空间的探索方案,可以搜索不同性质的各种解决方案。而局部搜索算法则致力于将搜索集中在搜索空间中可能性较大的区域。利用一种蝙蝠算法和爬山算法混合的方法,表明了局部搜索方法(HC算法)对BA算法搜索过程的影响。局部搜索的性能在搜索过程的各个阶段都有体现。此外,这种性能也在不同的窗口大小上有所体现。不过,仍可进行进一步研究,以改进提出的算法。类似地,研究更多的语义相似度和语义相关度方法将对F值产生潜在的增强作用。另外,对不同的组合度量和使用不同类型的相似度也进行了实验。此外,寻找其他的元启发式方法,如灰狼优化算法(GWO),可能会比所提出的蝙蝠算法在识别最佳语义方面具有更优越的性能。