论文部分内容阅读
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百科信息的检索方式,是以Google为代表的传统关键词查询检索,返回用户相关的文档集。这种方式只接收关键词查询,结果排序不能很好反映结构化信息要求,表示单一。
随着目前Web2.0技术的发展,人们对检索有了更高要求,基于知识和内容的检索成为发展方向。维基百科由于其网页包含大量结构化表格信息,结构会有较好的支持。本文在对目前网络数据的提取集成与查询方面进行研究为基础,提出了基于维基百科的结构化数据集成查询方法和查询语言SQuery,对有效的查询高质量结构化数据提出了有益的思考。
本文在分析国内外研究现状的情况下,抽象出了维基百科数据结构化查询子系统。最后提供基于标签关键词和结构化语言查询服务,对百科数据进行管理和查询:
●本文设计了基于维基百科网页结构化表格数据的提取系统,原型系统采用了基于规则的信息定位与识别,并过滤掉装饰的框架表格数据。采用基于特征函数的机器学习方式提取结构化表格信息。
●本文设计了基于维基百科信息的模式匹配和集成模型WikiTables模型,通过高质量的模式信息发现,对模式信息进行匹配,建立一个模式统计模型,然后对模式信息进行模式概念聚类与集成,输出成三元组的数据库和XML格式,便于提供不同类型的查询服务。
●本文设计了基于维基百科数据结构化查询子系统。本系统将结合目前关键词信息查询检索系统、XPath和基于XML语义检索的优点,结合目前数据库和信息检索的技术,提出了基于结构化数据信息检索模型和查询语言SQuery,提供高质量易用的信息查询系统。
本文实现了相关的系统,目前已经提取和集成了相当规模的百科表格,实验表明,本系统具有接近90%以上的准确率。