语义相似度计算及其应用研究

被引量 : 0次 | 上传用户:up2hyolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性是存在于任意两个对象之间的一种普遍关系,而相似度是对相似性的定量表示。相似度计算是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题。随着本体的广泛应用,基于本体语义的相似度计算及应用成为心理学和计算机科学交叉研究的一个重要课题。本文根据信息粒度的大小将研究对象分为基本信息对象和一般信息对象。概念属于基本信息对象,文本文档、半结构文档、Web服务属于一般信息对象。首先提出一个概念之间的语义相似度计算方法并进行了实验验证。在此基础上,针对文本文档之间、半结构XML文档之间以及Web服务之间的语义相似度分别给出了新的计算方法并通过实验进行了验证。本文的研究丰富和完善了语义相似度理论,为对象之间语义相似度计算提供了一种新的思路。本文主要创新点如下:1.提出一个新的本体中概念之间的语义相似度(SSBC,SemanticSimilarity Between Concepts)计算方法充分考虑到本体赋予概念的结构信息和语义信息,得到概念的语义扩展集,通过语义扩展集来描述该概念的特征并定义模糊集合。然后通过计算两模糊集合之间的相似度来衡量两概念之间的语义相似度。SSBC可有效体现概念相似度的非对称性、本体中概念层次树的深度和区域密度对相似度的影响。本文对提出的计算方法进行了实验验证,实验包括两部分。首先基于WordNet实现了SSBC方法,在通用实验数据集上的实验结果表明:SSBC方法对于概念对之间的相似度的衡量优于目前广泛使用的一些相似度计算方法,可以将相关系数提高0.018。其次基于SSBC提出计算句子语义相似度(SSBS,Semantic Similarity Between Sentences)计算方法并进行相关的实验,与其他方法相比,SSBS算法在特征的量化过程中不仅考虑两个句子的概念对之间的语义相似度和字符串编辑距离,还考虑了不同词性的概念对句子相似度的影响。2.提出一个新的文本文档之间的语义相似度(SSBTD,SemanticSimilarity Between Text Documents)计算方法SSBTD首先基于领域本体将文档描述为概念特征集合,然后针对概念特征集合中的每个概念定义模糊集合,利用模糊操作形成文档的模糊集合,最后通过计算文档模糊集合之间的相似度来衡量文档之间的语义相似度。SSBTD有效地解决了文档特征描述中特征词之间语义独立的问题。SSBTD适用于特征词数量较少的文档,例如在Deep Web数据库查询表单的相似度计算中,Deep Web的查询表单接口是面向不同的用户独立设计实现的,其中的标记词数量比较少,当把语义相同的词作为不同的词来处理时,会严重地影响Deep Web数据库特征描述的准确性。采用SSBTD算法计算Deep Web查询表单之间的相似度,可以有效的衡量查询表单之间的语义相似度。实验结果表明,因为考虑了语义对相似度的影响,与传统的余弦相似度相比,SSBTD方法的聚类性能评价标准ASDC(Average Similarity of Document to the ClusterCentroid)和RI(Rand Index)均优于余弦相似度。3.提出一个新的XML文档之间的语义和结构相似度(XMLSim)计算方法计算路径之间相似度NpathSim是计算XMLSim的基础。NpathSim方法基于节点标记对之间的语义相似度和编辑距离来生成两条路径的节点标记的相似度矩阵,对每个节点标记,依据其在路径中的位置赋予相应的权值;分析了路径上节点标记的偏序关系,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最终,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。利用XMLSim方法和没有考虑语义的XSim方法分别进行XML文档聚类实验,实验结果显示因为综合考虑了语义和结构对XML文档相似度的影响,从而使得XMLSim聚类性能评价标准纯度和RI均优于XSim方法。4.提出Web服务的语义索引方法和服务匹配算法首先基于领域本体对Web服务的描述IOPE(Input、Output、Precondition、Effect)进行语义扩展,将语义上完全等价的同义词添加到IOPE,建立其BBS(Bit-Slice Bloom Filtered Signature)语义索引结构:然后提出两种服务匹配方法:支持关键词匹配和支持输入/输出参数匹配。最后提出一种Web服务之间的语义匹配度计算方法。通过实验验证了BBS索引的有效性:随着服务个数的增加,相对于倒排文档,BBS索引在Web服务发现的平均时间和CPU利用方面均优于倒排索引。
其他文献
本文从语言与文化的角度研究曲靖地名的共时特点、历时演变及其与曲靖地域文化的关系,还对地名规范化提出了一些设想。文章首先介绍了本选题的意义、研究对象、语料来源、研
地方戏曲是传统社会中民众最重要的文化娱乐之一。它的发展变化反映了一个地域社会的历史变迁。江西省宜黄县是一个以小农经济为主的山区小县,但在传统社会里其戏曲活动却一
低丘缓坡土地综合开发利用是解决当前经济社会发展和用地难矛盾的有效途径,作为云南省10种典型性低丘缓坡开发实践之一的普洱市,在低丘缓坡土地综合开发利用过程中还存在一系
目的:研究川芎提取物的活血化瘀、镇痛作用,并进一步探讨川芎提取物治疗偏头痛的作用机理。方法:采用血瘀模型、肠系膜微循环障碍模型来确定川芎提取物的活血作用;采用热板试验
当今社会人们对养生学愈加关注,而从中国传统养生文化中汲取养生智慧也日益引起人们的重视。孟子是我国古代儒家学派的重要代表人物之一,其思想体系博大精深。同时,他对养生
结合07年夏季洋河水库的氮、磷、生物量的监测数据,采用三角瓶实验对低、中、高磷浓度级别的不同氮磷比培养条件下的螺旋鱼腥藻的生长及异形胞形成进行了研究;采用10L玻璃瓶实
量词是特殊的词类。汉语量词有相当数量是从名词转义而来的(还有少量是从动词、形容词转义而来)。量词不仅频繁出入于常规语言,还活跃穿梭在艺术语言里而形成一道亮丽的语言
凤庆县位于云南省的西南部,凤庆汉语方言属于北方方言区西南官话中的云南方言。国内对云南方言语音研究的大量著作主要是对云南方言的普查和分区,现有文献对凤庆汉语方言的研
对于铺设于易于发生塑性变形地区的管道可以采用基于应变的设计方法。在这种情况下,不仅要考虑钢管的强度和韧性性能,钢管和焊缝金属的应变能力也变得至关重要。当采用基于应