基于本体的专业搜索引擎的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:feilang166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文深入研究了专业搜索引擎的基本原理和开发专业搜索引擎的关键技术,提出将领域本体应用在专业搜索引擎开发中的观点。论文用本体提供的一套概念和术语来描述计算机教学领域知识库,获取该领域的常用概念及各个概念之间的关系。论文采用W3C推荐的标准本体语言OWL,对计算机教育领域的概念和相互之间的关系进行了较为精确的定义,一方面促进机器理解,另一方面可以从根本上解决知识共享问题。另外,论文通过研究探讨构造领域本体知识库的方法,提出一种适合本系统领域本体建设的新方法,并将该方法应用到计算机教育资源本体的建设中。该领域本体为专业搜索引擎的网络爬虫提供主题描述,使网络爬虫能够实现基于语义的网页相关度计算。同时,领域本体为用户的查询提供语义检索功能。在专业搜索引擎开发技术中,网络爬虫的实现是至关重要的,论文重点阐述了基于领域本体的网络爬虫的设计和实现。提出了一种适合专业搜索擎的超链接权值计算策略,从网页内容、网页上下层结构、超链接内容等几个方面预测URL的相关度。另外,论文通过分析计算机教育网页的特点,提出大纲式提取网页内容的新方法,并使用领域本体中的概念将提取网页内容语义化,从而提高了计算网页相关度的速度和准确度,也就提高了爬虫爬行的效率和准确率。论文使用protégé构建了计算机教育资源领域本体。使用JAVA开发了基于领域本体的主题爬虫,使用SQL Server2000作为数据库。设计了基于本体的专业搜索引擎的框架。
其他文献
本文通过对现行比较有代表性的q-composite方案进行分析,选定了提高其门限值的改良思路,创造性的在q-composite方案中引入了多项式方法,达到了大幅度提高其门限值的目的,从而
随着人们对高性能计算和资源分布共享需求的增加,传统的高性能计算模式和计算共享模式己经不能满足人们的需要,人们期望能够像访问电力资源一样随时随地的获取需要的计算和存
在图像识别系统中,为了抽取更高层次的信息用于进一步的分析和检测,常需从图像中寻找具体的物体对象或者感兴趣的区域。矩形作为最常见的人工图形之一,对它的检测有着广泛应用。
随着以微电子技术为代表的信息产业的飞速发展,多媒体、计算机网络等进入寻常百姓家,数字化已深入人心。以Internet为代表的网络化进程席卷全球,加之多媒体技术和数字传输的迅猛
随着高校教育的发展,计算机技术在各学科各专业中的应用不断深化,学生上机的需求越来越多,使高校内公用机房的规模不断扩大;同时计算机更新速度快、软硬件配置多样化,机房网
随着数字存储技术的发展,数字图像和视频图书馆等应用使得基于内容的检索成为研究热点,而从数字图像中提取文字的技术是基于内容检索的关键。 从图像中提取文字的过程主要有
存储级内存Storage Class Memory既具有内存的低延迟和随机存取的特性,又具有类似磁盘、固态盘等存储设备的可持久存储特性,被认为是未来计算机存储发展的重要趋势而逐渐被越
随着Internet在流量、规模和复杂度等方面的飞速增长,网络正在成为人们进行信息交流和信息处理的有效平台,网络上积累了海量的数据。面对如此巨大的信息量,如何发现自己所需信息
在当今各个领域,有各种各样的嵌入式linux设备,对于不同设备,其GUI(图形用户界面)的实现方式也是不一样的。相对而言,使用C++语言,采用优秀的图形库开发的UI,运行效率通常较高。但是,
数据挖掘是近年来数据库技术发展出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出