基于概念信息量的文本语义相似度模型研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:wang0525wz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的文本相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但词语间普遍存在概念上的关联,缺乏概念层面的计算导致这些方法的准确性提升困难。而实现全文本在概念层面的精确计算尚无有效模型。本文以Resnik提出的单一名词的概念信息量为基础,提出了多种模型和方法实现在概念级别快速、精确地计算文本语义相似度。主要工作和创新点如下:(1)提出一种基于概念信息量的文本语义相似度基本模型针对现有文本语义相似度方法局限于词表面特征的问题,提出了一种概念级别的文本语义相似度模型,即用文本间公共信息量占文本总信息量的比例来衡量文本语义相似度。本文用Word Net中名词性概念及其上下位关系构建了概念空间,然后定义多个概念的公共信息量和总信息量,应用组合数学中的容斥原理计算文本信息量。首次把词语的概念信息量扩展到文本信息量。在Li等人数据集上的实验结果表明,该模型仅利用文本中的名词就优于传统无监督模型。(2)提出一种基于概念信息增益的文本信息量计算方法针对基于容斥原理的文本信息量计算方法时间复杂度过高的问题,提出了一种基于概念信息增益的文本信息量计算方法。该方法利用概念空间的特点,运用增量思想,通过累加每个新加入概念的信息增益获得文本信息量,避免了容斥原理方法难以消除的重复计算问题。本文建立了定理系统来推导基于概念信息增益方法的计算公式,并设计了相应的高效算法。分析得出算法的时间复杂度从高于O(2~n)降低到O(n~2),并通过实验验证了算法的优越性能,这表明算法可以快速计算长文本的信息量。(3)提出一种融合信息权重的全文本信息量计算方法针对只能计算名词的概念信息量而导致文本信息缺失的问题,提出了一种融合信息权重的全文本信息量计算方法,以提高模型在文本语义相似度中的计算精度。模型的改进体现在三个方面:1)使用Word Net中派生关系链接将动词、形容词和副词与相应的名词进行关联,以实现全部实词到名词性概念的映射;2)使用已知命名实体预测未登录命名实体的概念信息增益,以避免未登录命名实体的信息缺失;3)在概念信息量中融合信息权重,以准确拟合人类对语义相似度的主观评估。实验结果表明,与没有上述三方面改进的基本模型相比,增强模型的计算精度得到显著提升:在Sem Eval 2013~2016文本语义相似度测评数据上,增强模型的实验结果超过了当年最先进系统的成绩。在Sem Eval 2017文本语义相似度国际测评中,我们团队使用增强模型的总成绩在所有团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个测评系统)。有关增强模型的论文被Sem Eval评选为“Best of Sem Eval 2017”。综上所述,本文对基于概念信息量的文本语义相似度模型进行了深入的研究。通过大量实验和证明,为文本语义相似度研究提供了一种概念级别的计算模型,显著提高了相似度计算的精度与性能。
其他文献
在全球范围,肺癌是患病人数最多、死亡率最高的第一大癌症,如果能够早期发现,则肺癌死亡率可大幅降低。肺部病变区域的计算机辅助检测对提高早期肺病诊断的正确率具有十分重
通过将交流电压以模块化串联或者级联组合的形式输入/输出,能够降低各个子模块功率器件的电压应力。将高频隔离变换器作为组合系统的基本子模块,结合相应的功率控制方法,能实
近年来,在世界范围内频发的各类突发事件尤其是非常规突发事件日益凸显出当代社会对应急管理的迫切需求。在面对复杂环境、信息高度不确定和可用资源有限的情况下,如何科学、
近年来,量子度量学的飞速发展引起了人们广泛的关注。它的核心问题是关心测量的精确程度,而量子测量可获得的最大精度取决于量子Fisher信息(QFI)。量子Fisher信息极大的依赖
自然界中很多分子都具有手性,分子的手性决定了它们的物理和化学性质。因此,手性对生物分子的有效探测和表征对制药、生物化学等领域的发展至关重要。本文对利用微纳结构增强
本文围绕在轨SAR实时处理对FFT处理器的需求展开,分别从FFT处理器结构、FFT处理器数据格式和FFT处理器在实际系统中的协同高效运行三个方面进行适合在轨SAR实时处理的FFT处理
我国电解锰生产和消费长期以来居世界首位。电解锰生产的高强度消耗导致碳酸锰矿资源日益枯竭。可以预计,利用低品位氧化锰矿(因锰含量低而被视为尾矿)生产电解锰已是大势所趋
随着器件集成化的不断精进,器件的热输运问题的研究就显得尤为重要。本文着重关注了耦合光子浴的介观器件的光子热流。本文采用了非平衡格林函数方法来研究体系热流,并且考虑
交通运输业迅速发展及居民出行需求的大幅度增加,导致道路交通运输压力日益增加,尤其是承载着城市间互通及大城市周边的高速公路运输压力更加严重。一旦交通事件发生,会极大
基于导航卫星的星地双基地差分干涉合成孔径雷达(Global Navigation Satellite System based Bistatic Differential Interferometric Synthetic Aperture Radar,GNSSBi DIn