基于WordNet和SUMO本体集成的文档语义分类模型的设计与实现研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:ytw2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的普及和Internet的迅猛发展,数字化的文档信息总量呈指数级的速度增长。面对网络上分散杂乱且具有一定利用价值的海量文档信息资源,如何有效利用它们,发挥它们的最大利用价值成为我们目前面临的难题。为解决这一难题,我们亟需一种快速有效的文档自动分类方法对它们进行分类整理,以便用户能够更快捷地获取利用它们。然而传统基于词向量空间的文档自动分类方法,虽然方法简单、易于学习,在对小规模文档进行分类时具有较高分类速度,但是其忽略词间重要语义关系,不能解决同义词、多义词、词间上下位关系等问题,导致向量空间维度高,分类性能低,在对海量文档分类时分类速度较慢,增加用户从海量信息中检索利用有用信息的难度。对此,国内外学者提出一系列语义驱动的文档自动分类方法,其虽然能够在一定程度上解决传统文档自动分类方法中存在的问题,但因其刚刚兴起,相关技术与方法还不太成熟,目前还基本上停留在理论、模型、框架研究阶段,且提出的方法语义推理能力要求高,计算复杂度高,无法快速有效对网络上海量文档进行语义分类。  针对上述问题,本文以本体集成和文档语义分类为研究对象,以语义分类过程中需要用到的两个本体库:WordNet和SUMO为例。首先通过广泛阅读国内外相关文献,梳理出本体集成和文档语义分类方面的基础理论。然后详细分析和探讨WordNet和SUMO本体库及两者之间的映射机制,基于此,设计和实现基于WordNet和SUMO本体集成的文档语义分类模型。该模型首先利用WordNet同义词集与SUMO本体概念之间的映射关系,编写正则表达式,对SUMO和WordNet本体库进行集成,形成涵盖WordNet同义词集与SUMO本体概念一一映射关系的集成本体库;然后在此基础上,设计和实现了一个映射算法,快速有效地将传统高维词向量空间映射成低维的概念或语义向量空间,实现文档的语义分类。不仅可以有效解决传统文档自动分类方法和目前语义分类方法中存在的问题,也同时可以解决本体概念和自然语言词汇之间抽象与具体、普遍性与特殊性的矛盾造成自然语言词汇无法准确映射到本体概念的问题,并且实验结果表明:提出的文档语义分类模型能够较大地提高文档分类的性能,降低文档分类的时间,比较适合快速有效对网络上海量文档进行语义分类。最后对文档语义分类的应用领域进行了分析和探讨。
其他文献
针对知识发现系统建设时只重视数据挖掘技术,而忽视对系统流程控制,缺乏对知识发现系统流程的模式研究问题,通过相关案例比较,提出基于系统思考的知识发现一般流程模式;分析
科学评价是以科学计量的理论和方法为基础,综合运用各种科学的程序和方法,对知识体系、成果及知识活动等进行测度、评判的过程。通过开展科学评价研究,可以深入了解科学体系的内
『无时间性的「纯粹概念」不能脱离有时间性的人类历史』.明代中期的『吴门书派』发展到了万历年间,已成强弩之末,吴门末流的书家由于不知上溯本源,只是陈陈相因,模仿文徵明
期刊
该文尝试着运用数据库整合及实证分析方法,从崭新的角度对中国国家信息政策法规体系进行了探索性研究.全文分为五个部分:第一章为"国家信息政策法规数据库"的结构及其数据实
摘 要:软枝油茶的优势主要表现在较高的经济效益,便于管理,投入成本低,属于一种高产优质的油料树种,具有较高的经济价值和绿化价值,因此能够作为低产油茶林改造的最佳选择树种。本文主要分析了软枝油茶繁育,并且研究了软枝油茶的高产栽培技术,希望能够对软枝油茶栽培起到参考性价值。  关键词:软枝油茶;繁育;高产栽培技术  中图分类号:S794.4 文献标识码:A 文章编号:1004-7344(2018)23
“档案利用”是一个古老而又新鲜的话题。档案被收集之初,其目的就是为了利用,虽然更多的是为“王权贵族”服务。随着社会的发展,尤其是目前我国处于社会转型这一特殊时期,开始由
本课题从评价山东省17个市级涉农网站运行效率入手,评估山东省农业信息服务现状和存在的问题,提出山东省农业信息服务四层结构模型。  首先,运用数据包络分析方法和Maxmine等
1840年鸦片战争到1919年“五四”运动这一段是中西文化冲突最显著的历史时期,论文选择这一时期的中国儿童读物出版来研究,就是要探讨出现代儿童读物的出版是如何从传统的《三字
以IC实现目标和概念模型为理论基础,针对我国未来高校图书馆IC规划与建设的构建模式、实施策略及需要注意的问题,探讨信息共享空间内部物理、虚拟和人文环境的规划与建设原则
信息化建设是当今企业改革的必由之路,ERP实施是信息化建设的主要途径,业务流程重组又是ERP实施的前提条件。但业务流程重组带来的高风险驱使人们寻求新的研究方法,信息流重组就是从信息流的角度研究业务流程重组的新方法。 本文从分析业务流程重组入手,在概述业务流程重组研究的基础上,重点分析了业务流程的要素构成,并将业务流程简化为信息流与物流两大要素,提出了研究业务流程的两个层面:信息层面与业务层面