概念及短文本语义相关度计算研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:ph103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网时代全面到来,信息技术已经开始融入各行各业,随之也产生了大量的数据,其中以文本数据最为常见。目前研究人员主要使用自然语言处理技术来分析文本数据,自然语言处理是人工智能领域中的重要方向,旨在研究计算机使用自然语言与人有效沟通的理论方法。而概念、文本语义相关性度量作为自然语言处理中重要的基础研究课题,也被众多研究者所关注。且其广泛应用于众多领域之中,比如词义消歧、信息抽取、自动摘要、问答系统以及文本分类等。虽然对概念及文本语义相关性度量研究较多,但是随着人们需求的不断变化以及自然语言处理技术的不断发展,对于语义相关度计算所能达到的精确度与广度也在不断提高,因此本文从概念及文本两个维度对语义相关性度量进行研究。本文的主要工作如下:(1)目前基于维基百科的概念语义相关度方法,存在预处理繁琐、计算复杂、精确度不高的问题,针对这一现象本文提出了基于维基百科双向链接的概念语义相关度模型。维基百科中的链接是由志愿者手动定义并通过审核形成的,更接近人类的语义,据此本文通过将维基百科中概念的外链接和内链接组合成双向链接向量来解释该概念,从而更好的模拟人类的语义。针对维基百科特有的结构,提出一种基于维基百科消歧页面的消歧策略,利用人们的公共认知,更好的选择准确义项来进行计算,消除了对概念语义相关度计算精度的负面干扰。针对在实验中发现维基百科概念之间的链接重叠度较低,直接使用传统方法将会导致部分计算结果与人工值存在较大的非线性偏差的情况,本文通过对数函数和指数函数进行非线性处理,改进了余弦相似度与Jaccard相似系数计算公式,提出了两种适合于维基百科链接的向量相似度公式。通过改进的向量相似度公式计算概念解释向量之间的距离来量化语义相关性。本文利用MC30、RG65、WS353、men3000等多个数据集进行测试,实验结果表现不错,在释义识别任务中,本文方法F1值达到了0.81。(2)为提高词向量在不同语言环境下的表达能力,本文利用Word Net中已经整理好的词语义项集与同义词集作为先验知识,提出了一种基于维基百科词统计的义项向量生成方法,旨在改善词向量无法解决一词多义的问题,同时提出了相应的义项消歧方法,在SCWS-2003数据集上,对比原始词统计向量,本文义项向量的Spearman系数提高了15%,说明该方法有一定的有效性。(3)在短文本相关度方面,本文主要针对中文文本的语义相关度,提出了基于变体卷积神经网络和双向长短期记忆网络的短文本语义相关度计算方法。卷积神经网络用于处理文本数据,可以有效提取局部特征,但经过池化层就会损失全局信息,而长短期记忆网络能够记住长期的信息,可以很好的解决文本中长期依赖的问题,因此本文结合去掉池化层的卷积神经网络和长短期记忆网络,利用孪生神经网络搭建框架,提取句子不同粒度的特征,利用该算法分别对Chinese STS、Chinese LCQMC和CCKS2018数据集进行测试,在CCKS2018数据集上,本文方法准确率与F1值均达到0.9。
其他文献
随社会和经济的发展,人们的物质需求有了很大提高,优良珍贵用材的需求量大。近年来我国珍贵的优良木材严重缺乏,优良珍贵木材的培育是人工林发展的重要目标。修枝措施在优良珍贵木材的培育中尤为重要,榉树(Zelkova schneideriana)作为贵州珍贵的乡土用材树种,其修枝技术研究薄弱。榉树具有分枝能力较强、分枝数多、主干不明显、自然整枝能力弱等特性。因此,本研究以6年生榉树人工林为研究对象,探索不
心包积液-肝炎综合征(Hydropericardium-Hepatitis Syndrome,HHS)是由Ⅰ群禽腺病毒血清4型(Fowl Adenovirus serotype 4,FAd V-4)引起的一种严重的禽类传染性疾病,主要病理特征为心包充满淡黄色液体,肝脏泛黄变脆,严重的常伴有点状出血,因最先在巴基斯坦安卡拉地区发现,又名安卡拉病(Angara disease,AD)。2015年HHS
手性醇是一类重要的合成砌块,广泛存在于许多生物活性分子以及天然产物中,因此,高效高选择性地构建该类化合物是有机化学家们一直关注的研究热点。构建手性醇类最经典传统的方法是利用有机金属试剂如格氏试剂、锂试剂及有机硼试剂等对羰基化合物进行不对称加成。然而这些有机金属试剂存在着制备繁琐,反应条件严苛,安全系数低等缺点,很大程度上限制了该类方法的应用。因此,发展简单、高效的方法构建结构多样性的手性醇化合物仍
目的:通过回顾性分析1型和2型心肾综合征(CRS)患者的临床数据,探讨重组人脑钠肽(rhBNP)对1型和2型CRS患者心功能、肾功能影响,并同时对尿量、血压等方面的影响进行探讨。方法:收集2018年01月-2020年11月在我院心内科住院、定期随诊、遵循选择和排除标准的215名1型和2型CRS患者的临床资料作为研究目标。其中104例使用rhBNP治疗患者归为研究组,而111例未使用rhBNP治疗患
目的:本研究基于静息态功能磁共振(rs-f MRI)的局部一致性(Re Ho)指标,观察经鼻持续气道正压通气(n CPAP)对改善重度阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者认知功能的作用脑区,并结合认知功能变化情况分析其相关性和临床疗效。方法:纳入经多导睡眠监测(PSG)确诊的重度OSAHS患者24例及健康成年人22例。两组在治疗前均进行蒙特利尔认知评分(Mo CA)量表、Epworth
剪切增稠液(Shear thickening fluid,STF)是由纳米或微米级固体颗粒和极性分散介质组成的一种悬浮体系。它具有在高剪切速率下粘度急剧增加,撤去外力后又可以恢复原状的特性。独特的性质使得剪切增稠液在人体防护、国防军工等材料防护领域有广阔的应用空间。为了拓展当前STF纤维复合材料的研究思路,为抗冲击防护材料的多样性设计提供更多可能性,将多组分剪切增稠流体体系引入实际应用中,本文制备
目的:本研究旨在探讨BethesdaⅢ型甲状腺结节良恶性质与中医舌象特征的相关性,用于辅助无意愿重复UG-FNAC的BethesdaⅢ型甲状腺结节患者,避免过度治疗,同时为中医的辨证论治提供理论依据,促进中医辨证的客观化。方法:根据诊断、纳入、排除等标准,筛选出52例BethesdaⅢ型甲状腺结节患者。采集患者的一般信息、病理结果等资料,并诊断患者舌象特征,记录于设计好的Excel中。运用SPSS
目的:收集并分析FOLFIRINOX(伊立替康、奥沙利铂、氟尿嘧啶、亚叶酸钙)方案和白蛋白结合型紫杉醇联合吉西他滨(NAB-P+GEM)方案治疗进展期胰腺癌临床疗效的统计数据。评估两种化疗方案的临床疗效及安全性。方法:检索中国知网、万方数据库、维普、中文科技期刊数据库、Pub Med、Cochrane Library等数据库。检索时间:建库-2020.12;语种为英文与中文。纳入符合要求的前瞻性研
芦苇是典型的两性繁殖植物,广泛分布于世界各地;但在草海芦苇的无性繁殖中,呈现两种繁殖方式:一种是在枯萎的老茎基部萌发产生新植株,往往一个基部产生多个植株;另一种则通过芦苇根蘖的节间发芽产生新的植株,并且只产生一个植株。两种繁殖方式资源的供给以及利用皆存在差异,后者是芦苇扩散的主要方式;本文通过对草海区域内两种繁殖方式生长的芦苇定期定点的观察和分析,以了解芦苇生长扩张过程中植株各因子的动态变化和草海
聚醚砜(PES)具有良好的热稳定性、优异的机械性能和耐化学腐蚀等特性,被广泛用于制备各种分离膜。然而,PES膜普遍存在水通量低、膜污染严重、细菌滋生等问题。将亲水单体和抗菌剂接枝到PES膜表面是提高PES膜水通量、抗污能力和抗菌性能的常见手段,但通常反应条件苛刻,且反应过程复杂。对PES进行本体化学改性也是制备功能性分离膜的有效途径。本文首先通过共辐照技术将具有高热稳定性、亲水性、抗菌性的1-乙烯