基于本体的Web信息文本挖掘与检索服务研究

来源 :中国航天第二研究院 航天科工集团第二研究院 | 被引量 : 6次 | 上传用户:mnbv808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体是概念模型的明确的规范说明,从本质上讲,就是某一领域内的概念以及这些概念间关系的集合。论文将本体技术应用于Web文本挖掘过程之中,其目的是借助于本体的语义描述来刻画文本信息的特征,从语义层面进行文本挖掘。实验证明,这种方法能提高信息检索的查准率和查全率,增强了结果的可解释性。基于本体的文本挖掘已成为一个重要的研究课题。论文构建了一个导弹领域的本体,在领域本体的构建中,为国防领域本体的构建积累了经验和方法,对形成国防领域本体成熟的构建方法论具有一定的探索意义和研究价值。在基于本体的文本挖掘相关技术的基础上,设计并实现了基于本体的文本挖掘与检索原型系统,提高了文本挖掘的效果,实现了文本信息的语义检索,为本体驱动的文本挖掘和检索服务的进一步研究打下了坚实的基础。本文的创新点:(1)利用OWL应用开发框架,开发了基于OWL的中文本体管理器。该管理器除了具有对本体进行修改、更新等功能,还可对导入的OWL本体文件进行解析以导出本体应用所需要的知识,达到共享和重用这些特定领域知识的目的。基于本体框架的语义信息,改进了经典的向量空间模型;利用概念向量空间模型来表示文本,从语义层次进行文本挖掘,提高了聚类的精度。(2)在聚类结果的基础上,利用互信息的统计算法分析领域词汇与本体概念相关的新词汇,实现了本体结构的扩充。
其他文献
随着信息化的发展,海量存储的需求日益增长。提供海量存储数据管理功能的机群文件系统正受到学术界和产业界的广泛重视。由于海量存储应用具有超大规模文件管理和超大规模数据
Windows Rootkit最早可追溯到DOS时代的木马程序,当时DOS系统的安全机制本身很不完善,因此Rootkit作为恶意软件的辅助工具并未受到攻击者的重视。1999年,以GregHoglund发布NT Ro
文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本
如今,互联网高速发展,网络应用已经从传统的网页浏览、电子邮件、IM即时消息,逐渐多元化。带宽的扩大以及技术的进步可以使得用户从互联网上获取更多的信息,互联网用户逐渐不
随着互联网的普及和电子商务的迅速发展,网络信息过载已经成为目前网络用户所面临的一个严重问题,用户在海量的产品信息中难以找到所需的商品,因此电子商务推荐系统应运而生
众所周知,地理学家进行复杂地理问题分析与求解的地理建模工作是一项复杂而艰巨的工作。此外,由于地理模型的跨领域性、使用广泛性等特点,造成了地理模型在模型种类、实现形
视频监控系统作为一种安防的有效手段,正越来越受到人们的重视。随着监控需求的增加和技术上的发展,视频监控系统已经不再是单纯的监视画面的传递储存设备,而是向着智能化的
基于应用行为分析的优化方法是计算机系统性能优化研究的重要内容。存储系统对访问模式的敏感性,使得基于存储模式进行性能优化的方法尤为重要。但随着存储规模的扩大,高密度IO
随着计算机网络和多媒体技术的发展,越来越多的图像信息出现在人们的生活中,那么如何在海量图像数据中找出所需要的图像成为研究热点。基于内容的图像检索技术应运而生,它不
随着Internet开始成为软件开发与运行的新环境,服务计算应运而生。在服务计算的应用模式下,任何资源(包括硬件和软件等)都可以封装为Web服务供外部使用。如何灵活、高效、可靠