基于WordNet的短文本语义网挖掘算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qwaszxzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,信息技术的广泛应用和快速普及,数据信息呈爆炸式增长,人们对信息处理技术的需求进一步增强,语义研究特别是语义相似性研究成为前沿和热点课题,不断涌现的科研成果在词义消歧、自动摘要、文本聚类与分类、概念抽取和自然语言处理等方面应用,展现了语义相似性等技术应用广阔发展前景。短文本语义相似性计算是语义应用的基础,该技术在文本相关性判断、Web网页检索与分类、文本信息挖掘、QA问题研究、摘要提取等方面扮演着越来越重要的角色。近几年语义相似性计算技术快速发展,形成了很多语义相似性计算算法,当前语义相似性算法多集中于长文本以及大文档的相似性计算,短文本的相似性计算算法还不多,表达形式尚需进一步完善。开展语义相似性算法研究,改进语义相似性计算方法,提高计算效率和质量,完善语义相似性应用系统,对于提高计算机应用技术水平具有重要意义。本文在对概念、短文本等语义相似性相关问题深入研究的基础上,提出了基于本体知识库WordNet的语义网概念相似性挖掘算法和短文本语义相似性挖掘算法,并进行了实验验证、分析等工作。一、语义网概念相似性挖掘算法1、多语料库信息量参数基于知识库WordNet以及词法库The Brown Corpus,提出了信息内容IC计算参数模型IC-CW。IC-CW在考虑概率信息之外,还考虑了概念在WordNet和Brown语义库中的语义信息,与传统IC算法比较,更好地反映了概念的语义信息。2、概念相似性计算算法基于IC-CW,本文提出了概念相似性计算方法SS-CW,与传统算法相比,该算法不需要领域相关知识,并且考虑了概念在知识库中的共享信息、概率信息等,实验表明该算法与人工判断具有较高的一致性。3、扩展关系模型挖掘算法以Nuno算法为基础,考虑WordNet中的上位、下位关系,并且引入部分、整体关系影响因素,综合考虑上位、下位、部分和整体等关系,提出了基于扩展关系的信息量计算方法IC-ER,实验结果优于Nuno等计算方法。4、路径和信息量相结合的挖掘算法以传统的语义树路径相似性计算算法为基础,综合考虑概念概率信息量对相似性的影响,本文提出了路径和信息量相结合的词语语义相似性计算方法SS-PI,实验结果较好。二、语义网短文本相似性挖掘算法1、基于概念概率信息的短文本语义相似性挖掘算法基于概念信息量参数IC-CW和概念相似性计算法SS-CW,本文提出了短文本语义相似性计算方法ST-CW。该算法综合考虑了概念的相似性信息和句子的句法信息,其中将主要概念在句子中的顺序信息与句法信息关联,同时算法还采取措施避免录入错误等影响,在R&B数据集上进行了实验验证,实验结果验证了算法的有效性。2、基于最大值的短文本语义相似性挖掘算法以概念数据集的语义相似性最大值做为主要参考因素,提出了基于最大值的短文本语义相似性计算算法ST-MAX,该方法以路径、信息量、概念间多种关系为基础,算法简练,计算效率高,实验证明算法可行性和有效性。3、资源匹配挖掘算法通过对RDF数据集整合的研究,针对当前RDF算法缺少系统性和可实用数据集整合工具等问题,在深入研究的基础上,提出了在领域本体指导下,资源属性表象与语义关系相结合驱动匹配的解决方案SS-RDF。实现了RDF数据集图的自动抽取算法;配置了灵活的新资源匹配算法集合包,集合包采用了模糊字符串比较、语义相似性和词关系计算等技术,开发了实用的RDF数据集整合系统。知识库WordNet、词法库The Brown Corpus是经过多年实践验证,能够有效表达语义信息的重要数据库之一。本文的语义相似性算法研究工作主要基于本体知识库WordNet、词法库The Brown Corpus,利用这两个数据库,保障了研究工作所使用基础数据及研究成果的典型性、代表性和可扩展性。同时利用RG、PS1、PS2和Li等数据集,通过实验验证了本文算法的可行性、有效性。
其他文献
一世纪之初,我想起了近年国际上激烈争论的一个话题:科学的极限和科学的终结.
期刊
<正>教育部制定的《普通高中课程方案(实验)》指出,"为保障高中课程的实施,学校应加强课程资源建设,充分挖掘并有效利用校内现有课程资源"。校园植物作为课程资源的重要组成
机车车轮会受到加工和实际运行环境等因素的影响而产生轮径差,轮径差会影响机车的行驶安全性。基于多体动力学理论,建立了铁路机车动力学模型。研究了4种典型轮径差对机车直
水力发电因为其污染小、经济效益显著,所以在国家的经济建设中起着重要的作用。随着资源节约型、环境友好型社会的建设,小水电工程以其节能、环保、分布灵活的优点开始大量建设
改革开放以来,我国收入总体水平和分配格局发生了很大变化。“效率优先,兼顾公平”的原则已悄然发生变化,国家和民众对于公平的认识也逐渐增强,但是目前我国的公共服务在不同地区
文化产业作为21世纪的朝阳产业,其在各国经济社会发展中的重要作用日益凸显。我国文化产业发展尚处起步阶段,与世界文化强国差距明显。发展文化产业是提升我国综合国力、维护
电晕损失是特高压交流输电线路电晕放电效应的重要研究内容之一,电晕损失机理以及我国特高压交流输电线路电晕损失评估的研究具有深远的理论意义和重要的实用价值。本文从导
通过大田试验,研究了耕作措施与植物生长调节剂对棉花生长发育及产量的影响,试验设计了4个处理(CT1:浅耕-叶面喷施缩节胺,CT2:浅耕-随水滴施多效唑,CT3:深耕-叶面喷缩节胺,CT
<正>本册的教学内容主要包括:万以内的加法和减法,多位数乘一位数,有关倍的概念及应用,时、分、秒,毫米、分米、千米和吨的认识,长方形和正方形的特性与周长,分数的初步认识,