论文部分内容阅读
Web作为一个全球化信息空间,蕴含着巨大的潜在价值,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。尽管目前已对Web数据抽取技术进行了大量的研究工作,但是现有的技术缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,难以适应各个网站的结构各异,形态多样的特点。这使得应用程序无法直接解析并利用Web上海量的信息,造成资源极大的浪费。针对上述问题,本文在结合知识密集型Web站点的数据特征的基础上,引入Suffix Tree技术,根据不同网站的格式特征,提取出有效的数据模式,并利用基于语义的本体建立方法,借助Protégé工具建立领域本体,完成信息抽取过程中语义信息的扩展,消除了同类信息源Web页面的异构性。本文在研究了本体技术和半结构化Web信息抽取技术总体解决方案的基础上,着重研究了知识密集型Web站点的信息数据抽取的实现技术。通过对传统信息抽取方法的基本原理、技术及发展现状等方面的分析研究,提出了由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的模型,详细描述了该模型的设计思想和抽取流程。该系统首先获取指定的HTML格式的Web文档,根据基于栈结构与链式结构的HTML到XML文档转换算法,将Web页面转换为XML格式,从而解决了Web文档之间的异构问题;然后利用Suffix Tree技术从该XML文档中提取数据模式;同时利用基于语义的本体建立方法,为这些信息增加语义信息;并用本体描述语言OWL形式化地描述该领域本体,从中归纳抽取规则;最后将抽取出来的数据转换成具有语义的RDF数据模型。论文通过本体技术的应用实现了语义信息附加,利用Suffix Tree技术完成了Web页面结构的数据模式提取。其工作实现了知识密集型Web站点上的信息数据源的模式提取以及信息抽取模型,方便用户使用有价值的Web信息资源,同时也为充分利用Web上的海量数据提供了一个有效的工具。