论文部分内容阅读
随着Internet的快速发展,互联网的信息以每四到六个月翻一倍的速度迅猛增长,传统的依靠浏览器以及关键字检索查询的搜索引擎已经越来越难满足人们对互联网信息服务的需要,如何帮助人们准确有效地找出自己所需要的信息资料,已经越来越迫切的摆在我们的面前。针对Internet上文本的半结构化和无结构化的特点,我们在信息抽取中引入了Ontology(本体)的技术,提出了一种基于Ontology,能处理语义的Web信息抽取(Information Extraction,缩写为IE)技术。该技术通过将互联网上以不同形式分散在不同网站上的同一主题的信息收集在一起,并用结构化形式存储,从而为用户提供简洁、准确的信息。信息抽取技术是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题领域的信息。该技术适用于具有特定主题及对相对确定的信息结构的文档如广告,新闻,旅游,股票、会议日程等。 自动信息抽取技术是近十年来发展起来的。有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是“消息理解研讨会”(MUC)近十几年来对该领域的关注和推动。根据各种工具所采用的原理将现有的工具分为以下5类:基于自然语言处理方式的信息抽取、包装器归纳方式的信息抽取、基于HTML结构的信息抽取和基于Web查询的信息抽取、基于Ontology方式的信息抽取。基于自然语言处理方式的信息抽取在一定程度上借鉴了自然语言处理技术,利用子句结构,短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取,该种抽取方法的实现非常复杂,抽取效率也比较低;包装器归纳方式的信息抽取根据事先由用户标记好的样本实例应用机器学习方式的归纳算法,生成基于定界符的抽取规则,该种信息抽取方法需要大量的样本文本。基于HTML结构的信息抽取技术特点是,根据Web页面的结构定位信息,在信息抽取之前通过解析器将Web文档解析成语法树,通过半自动化的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取,这种信息抽取方法对文本结构的要求比较严格,同一抽取系统只能应用于相同或类似结构的文本;基于Web查询的信息抽取将Web信息抽取转化为使用标准的Web查询语言对Web文档的查询,具有通性。但该种方法需要先把Web信息转化为符合XML文法的形势,然后再根据其结构写查询语句,另外这种方法对文本格式的要求也比较严格。本文应用的基于Ontology的信息抽取主要是利用本身的描述信息实现抽取。这种信息抽取方法是首先建立领域本体,然后根据领域本体的关键字和概念属性建立抽取规则,根据领域本体