论文部分内容阅读
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的找到感兴趣的、比较完整的信息,帮助用户发现对自己有用的知识。目前,90%的全球500强企业已建立完善的市场情报分析系统,有效地分析市场情报对于企业的生存和发展具有十分重要的意义。Web已经成为如今人们获取信息的主要来源,但是随着Web上数据信息量的日益增加,人们从Web上获取真正需要的信息已经变得不再容易。因此,如何对Web信息进行过滤和发现,帮助人们方便地查找“真正需要的数据”成为一个至关重要的问题。有些数据处理系统针对某一个行业的信息进行搜集,以结构化数据为最小单位,关注的是有一定结构的数据,主要通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。然而,如何从无结构化的文本中抽取数据实体仍然存在很多困难。本文主要研究了基于领域的Surface Web中数据实体的提取方法,在领域特征的基础上,结合传统信息检索技术,设计了基于领域词汇的数据实体抽取框架,并在此基础上提出了一个面向旅游线路信息的Web数据实体抽取系统。围绕着该框架,本文对如何从特定领域相关的Web页面中进行数据实体抽取涉及的若干关键问题进行了研究。本文的主要研究内容和工作包括:1.描述Surface Web中的实体类型,构建了面向旅游线路信息的Web数据实体抽取框架,并以此为本文的研究基础。该框架建立在传统信息检索的分词和索引技术的基础之上,根据数据实体抽取的特定需求,增加了特有的工作步骤,将Surface Web页面信息进行分词后再过滤以进行领域信息实体的识别。2.在数据实体抽取方面,本文提出了如何根据领域词汇表来对信息进行过滤,并采用XML存储旅游线路信息。旅游景点信息的发现是渐进式的,利用XML可以表现旅游城市与其景点信息之间的关联,便于信息的逐渐完善与表达。3.基于已有的对命名实体的研究,可以发现新的旅游景点词汇,用于丰富旅游线路信息的内容;通过对页面进行分割,使处理的数据描述具有更强的相关性,以提高抽取的准确性。4.将XML与传统信息检索的索引模型相结合,便于信息的快速获取。本文利用XML对旅游线路信息进行描述,同时将其与索引模型相结合,这样在进行信息的定位时可以同时定位特定地域信息以及相关旅游路线信息。本文对如何有效的抽取特定领域的实体信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息处理领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。