一个语义网数据采集系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:sony360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网的发展,基于语义网数据的应用越来越多。由于语义网数据的开发与存储具有分布式的特点,为了促进语义网数据的重用和集成,语义网搜索引擎渐渐成为语义网的研究热点。Falcons正是一个集语义网数据采集、索引、检索功能于一体的语义网数据搜索引擎。本文阐述了它的一个子系统-Falcons语义网数据采集系统的设计与实现。 本文首先对语义网采集的研究现状进行了调查研究,指出了现有工作的不足之处,为了能够采集尽可能多、数据形式多样的语义网数据,本文总结出各种可行的采集方案,并设计出一个多种采集方式结合,并相互协作的采集框架来完成采集的工作,即元采集、站点内采集和RDF采集。其中元采集是利用已有的搜索引擎获得采集结果的采集方式;站点内采集是利用并改进传统网络爬虫进行的采集方式;RDF采集是把语义网看作是一个RDF图模型,通过解析语义网文档,选择RDF链接得到新的语义网文档的采集方式。另外,本文还关注了采集过程中需要考虑的几点问题,如回访策略和网页重定向的问题。 本文的贡献在于,通过多种采集方式结合与协作的方式,能够全面地覆盖万维网中的语义网数据,大大提高数据收集的效率,Falcons系统因而也更具竞争力。Falcons所支持的三种采集方式构成了一个各部分既相对独立,又相互协作、互为补充,并且可持续运行的整体。元采集可以说是整个采集系统的启动采集方式,它可以为站点内采集和RDF采集提供种子URI;而站点内采集与RDF采集又可以互相为对方提供种子URI。在实验结果部分,文章分别给出了利用每种采集方式得到的数据量与采集的精度,并做了一些比较。最后,文章总结了全文的研究工作,提出了两点改进的建议并且对未来的工作进行了展望。
其他文献
梯形图(Ladder Diagram)是IEC61131-3标准定义的五种标准编程语言之一,由于梯形图语法简单、结构规整以及采用图形化的编程方式,使得其深受工控领域编程人员的喜爱,现已成为工业
随着互联网的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题也日益严重。邮件信誉机制作为一种新兴手段在垃圾邮件过滤领域中发挥着重要作用。然而,由
随着互联网技术的发展,人们对于网络服务的要求越来越高,数量也越来越巨大,传统客户/服务器应用构架受到了巨大的挑战。因此在当前的技术条件下,如何构建大规模、高可扩展、
桥梁远程监测是利用有线或无线通信方式实现桥梁状态实时远程监测的方法,它改变了传统的以人工为主的监测手段,大大提高了桥梁监测的自动化程度,提高了对桥梁结构损坏和突发
随着物流产业的发展,传统的第三方物流在信息共享和资源整合上开始显得力不从心,于是第四方物流应运而生。要在第三方物流的基础上构建第四方物流管理系统,如何实现管理系统
近几年随着科技的发展,Internet技术广泛的被应用,具有松耦合、异步和多点通信的等特点的发布/订阅系统(pub/sub系统)满足了分布式系统在应用范围和应用规模等方面改变的需要
当今随着信息技术的日新月异,快速发展,人们对信息的渴望也是与日俱增。面对杂乱的海量数据,如何能从中快速得到用户想要的信息,是当前亟待解决的问题。所以对海量数据进行有效的
由于数据挖掘模式的多样性、挖掘过程的非平凡性、挖掘算法的复杂性,使得构造一个完整的知识发现流程往往是耗时的,而且需要领域专家和算法设计人员的多方参与。这些流程不仅
图编程技术是用可视化编程代替文本编程的编程方式,该技术采用构件复用的设计方式,极大程度降低了编程人员的开发难度。鉴于图编程技术的种种优势,本论文论述了基于图编程技术开
随着信息量的爆炸式增长,信息存储技术显得越来越重要。个人计算机磁盘容量也越来越大,目前几百GB已经比较常见,企业的存储容量更是以较快的速度增长。很多企业要求他们的数