论文部分内容阅读
互联网的出现为人们获取信息提供了极大的便捷,但随着信息的海量增长,人们已经越来越难从网上找到自己想要的信息了,大量的有用信息淹没在了无用信息之中。为了使网络服务更加的个性化与智能化,万维网之父伯纳斯李(Tim Berners-Lee)提出了语义网的概念。语义网以本体的方式表示信息,使机器能够理解网上的信息,从而为实现更加智能化的信息服务提供了可能。
语义网的出现同时也提出了一道难题,那就是如何将互联网上现有的海量信息以规范化的形式来表示?如果纯粹靠人手工来完成的话,那将是一项艰巨的费时费力的任务。本论文结合现有的信息抽取技术和语义网技术,探索了一种将存在于网上的传统web信息自动地转化为语义信息,并以语义网要求的知识表示方法存储,以供语义网使用的技术,并在一个旅游信息服务系统(TBJ Traveling in Beiiing)中使用。
本论文首先分析了当前万维网的不足以及语义网出现的原因,针对TBJ系统的特点和需求,提出了语义信息自动生成算法和系统的设计实现方案,并应用到 TBJ系统的实现中。语义信息自动生成系统由网上信息获取、语义信息生成和语义信息表示三个主要模块组成。
在实现过程中采用了和网页结构相关的抽取以及和内容相关的抽取两个抽取步骤,这样可以较好的利用网页的半结构化特点,同时在和内容相关抽取中,提出了使用语义相似度量的方法。获得了较好的抽取精度。