基于概念信息量的文本语义相似度模型研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户：wang0525wz

【摘要】

：

文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的文本相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法

【作者】

：

吴昊

【出处】

：

北京理工大学

【发表日期】

：

2018年01期

【关键词】

：

文本语义相似度概念信息量容斥原理概念信息增益 Word Net 未登录命名实体概念信息权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的文本相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但词语间普遍存在概念上的关联,缺乏概念层面的计算导致这些方法的准确性提升困难。而实现全文本在概念层面的精确计算尚无有效模型。本文以Resnik提出的单一名词的概念信息量为基础,提出了多种模型和方法实现在概念级别快速、精确地计算文本语义相似度。主要工作和创新点如下:(1)提出一种基于概念信息量的文本语义相似度基本模型针对现有文本语义相似度方法局限于词表面特征的问题,提出了一种概念级别的文本语义相似度模型,即用文本间公共信息量占文本总信息量的比例来衡量文本语义相似度。本文用Word Net中名词性概念及其上下位关系构建了概念空间,然后定义多个概念的公共信息量和总信息量,应用组合数学中的容斥原理计算文本信息量。首次把词语的概念信息量扩展到文本信息量。在Li等人数据集上的实验结果表明,该模型仅利用文本中的名词就优于传统无监督模型。(2)提出一种基于概念信息增益的文本信息量计算方法针对基于容斥原理的文本信息量计算方法时间复杂度过高的问题,提出了一种基于概念信息增益的文本信息量计算方法。该方法利用概念空间的特点,运用增量思想,通过累加每个新加入概念的信息增益获得文本信息量,避免了容斥原理方法难以消除的重复计算问题。本文建立了定理系统来推导基于概念信息增益方法的计算公式,并设计了相应的高效算法。分析得出算法的时间复杂度从高于O(2~n)降低到O(n~2),并通过实验验证了算法的优越性能,这表明算法可以快速计算长文本的信息量。(3)提出一种融合信息权重的全文本信息量计算方法针对只能计算名词的概念信息量而导致文本信息缺失的问题,提出了一种融合信息权重的全文本信息量计算方法,以提高模型在文本语义相似度中的计算精度。模型的改进体现在三个方面:1)使用Word Net中派生关系链接将动词、形容词和副词与相应的名词进行关联,以实现全部实词到名词性概念的映射;2)使用已知命名实体预测未登录命名实体的概念信息增益,以避免未登录命名实体的信息缺失;3)在概念信息量中融合信息权重,以准确拟合人类对语义相似度的主观评估。实验结果表明,与没有上述三方面改进的基本模型相比,增强模型的计算精度得到显著提升:在Sem Eval 2013～2016文本语义相似度测评数据上,增强模型的实验结果超过了当年最先进系统的成绩。在Sem Eval 2017文本语义相似度国际测评中,我们团队使用增强模型的总成绩在所有团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个测评系统)。有关增强模型的论文被Sem Eval评选为“Best of Sem Eval 2017”。综上所述,本文对基于概念信息量的文本语义相似度模型进行了深入的研究。通过大量实验和证明,为文本语义相似度研究提供了一种概念级别的计算模型,显著提高了相似度计算的精度与性能。

其他文献

肺部常见CT征象检测方法研究

在全球范围,肺癌是患病人数最多、死亡率最高的第一大癌症,如果能够早期发现,则肺癌死亡率可大幅降低。肺部病变区域的计算机辅助检测对提高早期肺病诊断的正确率具有十分重

学位

计算机辅助诊断病变区域检测肺癌常见CT征象磨玻璃影征象分叶征空洞征

基于交流接口的模块化高频隔离变换器拓扑结构及其控制研究

通过将交流电压以模块化串联或者级联组合的形式输入/输出,能够降低各个子模块功率器件的电压应力。将高频隔离变换器作为组合系统的基本子模块,结合相应的功率控制方法,能实

学位

模块化串并组合系统模块化级联组合系统功率均分控制高频隔离双有源桥(DAB)宽电压增益

面向主体行为与偏好的应急决策方法研究

近年来,在世界范围内频发的各类突发事件尤其是非常规突发事件日益凸显出当代社会对应急管理的迫切需求。在面对复杂环境、信息高度不确定和可用资源有限的情况下,如何科学、

学位

应急决策多准则决策分析复杂偏好建模前景理论非可加测度和积分TODIM

开放量子系统下的量子Fisher信息研究

近年来,量子度量学的飞速发展引起了人们广泛的关注。它的核心问题是关心测量的精确程度,而量子测量可获得的最大精度取决于量子Fisher信息(QFI)。量子Fisher信息极大的依赖

学位

量子Fisher信息量子度量学弱测量非马尔科夫度相位噪声随机电报噪声GHZ态偶极-偶极相互作用

表面增强的手性分子光谱

自然界中很多分子都具有手性,分子的手性决定了它们的物理和化学性质。因此,手性对生物分子的有效探测和表征对制药、生物化学等领域的发展至关重要。本文对利用微纳结构增强

学位

光学微纳结构光子晶体等离激元手性分子米散射

面向在轨SAR实时处理的FFT处理器结构及VLSI实现研究

本文围绕在轨SAR实时处理对FFT处理器的需求展开,分别从FFT处理器结构、FFT处理器数据格式和FFT处理器在实际系统中的协同高效运行三个方面进行适合在轨SAR实时处理的FFT处理

学位

星载SAR实时处理FPGAASICFFT基-2~k定点

低品位氧化锰矿生物沥浸制备富锰低铁浸出液：工艺和机制

我国电解锰生产和消费长期以来居世界首位。电解锰生产的高强度消耗导致碳酸锰矿资源日益枯竭。可以预计,利用低品位氧化锰矿（因锰含量低而被视为尾矿）生产电解锰已是大势所趋

学位

生物沥浸低品氧化锰矿工业废水(液)锰还原浸出过程优化机理研究

介观约瑟夫森器件的光子热输运

随着器件集成化的不断精进,器件的热输运问题的研究就显得尤为重要。本文着重关注了耦合光子浴的介观器件的光子热流。本文采用了非平衡格林函数方法来研究体系热流,并且考虑

学位

介观约瑟夫森结光子热输运非平衡格林函数方法

高速公路路网交通运行状态关键问题的研究

交通运输业迅速发展及居民出行需求的大幅度增加,导致道路交通运输压力日益增加,尤其是承载着城市间互通及大城市周边的高速公路运输压力更加严重。一旦交通事件发生,会极大

学位

浮动车高速公路交通事件检测小波分析道路交通运行状态量化

基于导航卫星的双基地差分干涉SAR形变反演技术研究

基于导航卫星的星地双基地差分干涉合成孔径雷达(Global Navigation Satellite System based Bistatic Differential Interferometric Synthetic Aperture Radar,GNSSBi DIn

学位

导航卫星双基地SAR时频同步图像融合形变反演

基于概念信息量的文本语义相似度模型研究

与本文相关的学术论文