维基百科数据结构化查询子系统设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zjzjzj13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百科信息的检索方式,是以Google为代表的传统关键词查询检索,返回用户相关的文档集。这种方式只接收关键词查询,结果排序不能很好反映结构化信息要求,表示单一。   随着目前Web2.0技术的发展,人们对检索有了更高要求,基于知识和内容的检索成为发展方向。维基百科由于其网页包含大量结构化表格信息,结构会有较好的支持。本文在对目前网络数据的提取集成与查询方面进行研究为基础,提出了基于维基百科的结构化数据集成查询方法和查询语言SQuery,对有效的查询高质量结构化数据提出了有益的思考。   本文在分析国内外研究现状的情况下,抽象出了维基百科数据结构化查询子系统。最后提供基于标签关键词和结构化语言查询服务,对百科数据进行管理和查询:   ●本文设计了基于维基百科网页结构化表格数据的提取系统,原型系统采用了基于规则的信息定位与识别,并过滤掉装饰的框架表格数据。采用基于特征函数的机器学习方式提取结构化表格信息。   ●本文设计了基于维基百科信息的模式匹配和集成模型WikiTables模型,通过高质量的模式信息发现,对模式信息进行匹配,建立一个模式统计模型,然后对模式信息进行模式概念聚类与集成,输出成三元组的数据库和XML格式,便于提供不同类型的查询服务。   ●本文设计了基于维基百科数据结构化查询子系统。本系统将结合目前关键词信息查询检索系统、XPath和基于XML语义检索的优点,结合目前数据库和信息检索的技术,提出了基于结构化数据信息检索模型和查询语言SQuery,提供高质量易用的信息查询系统。   本文实现了相关的系统,目前已经提取和集成了相当规模的百科表格,实验表明,本系统具有接近90%以上的准确率。  
其他文献
随着计算机用户个人信息量日益扩大,如何帮助用户在系统中快速找到所需资源已成为当前智能交互行为模型的重要课题。设计用于协助用户查找资源的智能工具可以缩短用户在个人信
万维网已经逐渐成为一个飞速增长的信息仓库,其包含的信息内容也是丰富多彩的。因此,网络信息抽取在信息集成领域也逐渐成为越来越重要的工作。由于大多数课程信息网页不具有固
网络聊天软件的出现极大地方便了人们之间的交流,网络视频电话(VoIP)不但具有普通聊天软件的功能,通过VoIP服务商,还能和传统电话之间实现通话。网络视频电话由于其低通话成本、
区块链技术在2008年出现,在近10年的发展应用过程中,区块链技术在数字货币、医疗、保险、数据存证领域应用广泛。在去中心化的、无信任的网络中,可靠的传递价值与信任是区块链带
无线传感器网络因具备获取和传输工作区域内目标信息的能力受到越来越多的关注与应用。拓扑控制为各节点选择适当的邻居节点,有效地降低了网络的通信能耗以延长网络的生存时
RFID即射频识别技术是一项正在蓬勃发展中的技术。RFID技术通过射频信号自动识别目标对象并获取相关数据,对带有标签的目标物体进行定位和跟踪。在物流和供应管理、生产制造和
我国有不少橘园建在山坡地上,有为数不少的山地橘园没有机动车道,肥料等农资和果品的运输都是依靠人力来完成的,人工运输方式运送效率低,劳动强度大,成本高。简易的工程索道凭借其
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树
猪舍是猪只活动的场所,为猪只提供适宜的舍内环境,能充分发挥猪只生产潜力和保证猪只的健康生长。但是长期以来,国内的猪舍环境监控方式仍以人工为主,这种传统的监控方式具有自动
当前,对业务流程管理的重视正在影响着信息系统的构建方式。业务流程模型在信息系统构建中的地位越来越重要,同时数据模型描述了业务数据,是信息系统重要的结构模型。在很多情况