论文部分内容阅读
随着信息时代的到来,信息技术的广泛应用和快速普及,数据信息呈爆炸式增长,人们对信息处理技术的需求进一步增强,语义研究特别是语义相似性研究成为前沿和热点课题,不断涌现的科研成果在词义消歧、自动摘要、文本聚类与分类、概念抽取和自然语言处理等方面应用,展现了语义相似性等技术应用广阔发展前景。短文本语义相似性计算是语义应用的基础,该技术在文本相关性判断、Web网页检索与分类、文本信息挖掘、QA问题研究、摘要提取等方面扮演着越来越重要的角色。近几年语义相似性计算技术快速发展,形成了很多语义相似性计算算法,当前语义相似性算法多集中于长文本以及大文档的相似性计算,短文本的相似性计算算法还不多,表达形式尚需进一步完善。开展语义相似性算法研究,改进语义相似性计算方法,提高计算效率和质量,完善语义相似性应用系统,对于提高计算机应用技术水平具有重要意义。本文在对概念、短文本等语义相似性相关问题深入研究的基础上,提出了基于本体知识库WordNet的语义网概念相似性挖掘算法和短文本语义相似性挖掘算法,并进行了实验验证、分析等工作。一、语义网概念相似性挖掘算法1、多语料库信息量参数基于知识库WordNet以及词法库The Brown Corpus,提出了信息内容IC计算参数模型IC-CW。IC-CW在考虑概率信息之外,还考虑了概念在WordNet和Brown语义库中的语义信息,与传统IC算法比较,更好地反映了概念的语义信息。2、概念相似性计算算法基于IC-CW,本文提出了概念相似性计算方法SS-CW,与传统算法相比,该算法不需要领域相关知识,并且考虑了概念在知识库中的共享信息、概率信息等,实验表明该算法与人工判断具有较高的一致性。3、扩展关系模型挖掘算法以Nuno算法为基础,考虑WordNet中的上位、下位关系,并且引入部分、整体关系影响因素,综合考虑上位、下位、部分和整体等关系,提出了基于扩展关系的信息量计算方法IC-ER,实验结果优于Nuno等计算方法。4、路径和信息量相结合的挖掘算法以传统的语义树路径相似性计算算法为基础,综合考虑概念概率信息量对相似性的影响,本文提出了路径和信息量相结合的词语语义相似性计算方法SS-PI,实验结果较好。二、语义网短文本相似性挖掘算法1、基于概念概率信息的短文本语义相似性挖掘算法基于概念信息量参数IC-CW和概念相似性计算法SS-CW,本文提出了短文本语义相似性计算方法ST-CW。该算法综合考虑了概念的相似性信息和句子的句法信息,其中将主要概念在句子中的顺序信息与句法信息关联,同时算法还采取措施避免录入错误等影响,在R&B数据集上进行了实验验证,实验结果验证了算法的有效性。2、基于最大值的短文本语义相似性挖掘算法以概念数据集的语义相似性最大值做为主要参考因素,提出了基于最大值的短文本语义相似性计算算法ST-MAX,该方法以路径、信息量、概念间多种关系为基础,算法简练,计算效率高,实验证明算法可行性和有效性。3、资源匹配挖掘算法通过对RDF数据集整合的研究,针对当前RDF算法缺少系统性和可实用数据集整合工具等问题,在深入研究的基础上,提出了在领域本体指导下,资源属性表象与语义关系相结合驱动匹配的解决方案SS-RDF。实现了RDF数据集图的自动抽取算法;配置了灵活的新资源匹配算法集合包,集合包采用了模糊字符串比较、语义相似性和词关系计算等技术,开发了实用的RDF数据集整合系统。知识库WordNet、词法库The Brown Corpus是经过多年实践验证,能够有效表达语义信息的重要数据库之一。本文的语义相似性算法研究工作主要基于本体知识库WordNet、词法库The Brown Corpus,利用这两个数据库,保障了研究工作所使用基础数据及研究成果的典型性、代表性和可扩展性。同时利用RG、PS1、PS2和Li等数据集,通过实验验证了本文算法的可行性、有效性。