基于Bootstrapping的领域知识自动抽取技术的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:A75395100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展及其各种Web应用的快速增长,网络上的信息规模急剧扩大。网络已经成为人们生活中重要的知识库,人们对高效地获取信息的需求尤为迫切。在网络的海量数据中,包含了大量的半结构化的领域知识,例如电影、书籍和酒店等等,这些领域知识与我们的生活秘密相关。目前,虽然可以通过搜索引擎从海量数据中进行信息检索,但是搜索的结果并不是非常可靠。而这些领域知识往往来自供应商的后台数据库,同时基于关键字匹配的搜索引擎由于自身的限制,不能索引这些嵌入在半结构化的HTML网页中的领域知识。如何从大规模的Web网站中自动抽取并组织这些领域知识成为信息抽取研究的热点。Web信息抽取技术(Web Information Extraction)可以从半结构化的网页中抽取数据,并以结构化的方式存储在数据库中。本文在分析当前Web信息抽取技术的基础上,利用标签路径技术(Tag Path Technique)代替DOM树来表示HTML文档。该表示方法大大降低了标签的数量,提高了算法的性能。针对半结构化的网站,提出了一种新的基于Bootstrapping的自动抽取领域知识的算法:Domain-specific Knowledge Extraction from Websites, DKEW。 DKEW利用本体(Ontology)来统一标注同一领域中抽取的半结构化数据,便于存储和查询。DKEW首先利用基于标签路径技术的聚类算法对目标网页进行聚类,过滤掉噪音网页,DKEW只抽取包含详细信息的半结构化网页。根据标签路径技术,提出一种新的模式定义。对同一类别的网页,借助于机器学习方法和领域种子自动地进行模式学习。然后利用学习到的模式自动抽取领域知识并匹配到事先定义的领域本体,将匹配好的领域知识存储在结构化的、便于查询的知识库表格中。在知识抽取的同时,利用新抽取的具有高可信性的领域知识来扩充领域种子和Ontology,以便下次迭代应用。最后,通过Bootstrapping方法将相关的知识抽取过程结合起来,使之成为一套无需人工监督的自动抽取工具。DKEW只需要少量的人力进行领域种子的初始化。为了验证DKEW,本文利用自定义的网络爬虫爬取多个领域的网页数据。实验表明DKEW不仅在性能上优于现有的Web信息抽取方法RoadRunner,而且在效率上也远远高于RoadRunner。相比于RoadRunner需要手动匹配抽取的数据,DKEW利用自动的方式进行本体匹配,节省了大量的人力和时间。在多个领域上的实验表明,DKEW可以应用在大规模的Web信息抽取中。
其他文献
随着配电网工程中信息化技术的逐步深入,信息安全问题逐渐凸显。目前,配电终端与配电网数据交互中主要采用基于SM2算法的单向身份认证技术,且大部分数据交互以明文方式进行。因此,如何保证终端设备与配电网数据交互的安全性,已经成为配电网建设过程中迫切需要解决的问题。实现配电终端与配电网安全数据交互需要解决两方面问题:一是配电终端自身安全;二是数据通信通道安全。终端自身安全保证了接入源的安全,数据通信通道安
随着信息技术的迅猛发展和广泛应用,计算机网络已经遍布人们社会生活的各个角落,成为人们日常生活中不可或缺的一部分。逐步拓展的计算机网络业务,以及各种业务对网络需求不
增强现实(Augmented Reality,简称AR),也被称之为混合现实。它通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。
蜂窝网络是一种经济、灵活且应用范围广的通信技术。从最初以声音通讯为主的服务,到如今的提供的移动数据服务,其经历了长足的发展。然而,相较于对传输质量日益增长的需求,蜂窝无
随着互联网的普及、软件应用技术和模式的快速发展,软件已呈网络化、平台化和服务化得发展趋势。其中,SaaS(Software as a Service)服务是一种新型的软件服务模式,凭借其按需
生物信息学是20世纪末随着生物技术的提高和生物学数据的积累而发展起来的一个新的领域,是一门利用计算机工具和技术对生物系统的问题和规律进行研究的学科。目前,生物信息学
病历是对病人患病信息及医生诊疗和处理过程的记录,在就医过程中起到相当重要的作用。长期以来,传统病历均是纸质病历,存在易篡改、难保存等缺点。当今信息化已渗透各行各业,纸质病历也开始逐渐被电子病历(EMR)所取代。医院信息化建设是我国“十二五”期间工作重点之一,作为其核心的电子病历建设将是重中之重。电子病历集合了病人的各种信息,其安全性十分重要,因此建立一个安全可行的电子病历安全系统具体十分重要的意义
基于策略的网络管理由于具有灵活、易用、自动化等特点,在网络安全管理领域得到了广泛的运用。策略是由网络管理员配置的约束规则集,用于保护系统安全。对当前网络安全策略模
从图数据库挖掘频繁模式在化学信息学、计算生物学、WEB信息管理、社会网络分析等领域有着广泛的应用。因此本文重点研究了从图数据库中挖掘频繁模式的关键技术,并针对频繁模
同步定位与地图构建(SLAM)是移动机器人在未知环境下自主定位的关键技术,但由于其中跟踪算法的累计误差,机器人在长距离行驶后无法保证位姿的有效计算和地图的正确构建。环路