基于REIE的Web信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sky_xuky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web信息抽取技术研究的深入和快速的发展,基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个研究热点。本文对这项技术进行深入研究,通过比较和分析当前Web信息抽取领域中的经典方法,改进了一些已有的算法并提出了基于REIE(Regular Expression Information Extraction)算法的信息抽取技术。本文首先介绍了Web信息抽取技术的相关理论知识以及体系结构,通过分析和比较几种经典的信息抽取方法,提出了一种基于REIE的信息抽取技术,同时给出了信息抽取系统的评价标准。然后,通过分析Web文本,介绍基于Web文本挖掘的方法,利用Web文本挖掘的相关性,详细地分析了HTMLParser的信息解析方式和抽取原理,并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则,提出了本系统的核心算法,即REIE抽取算法。本文最后实现了一个基于REIE的网页内容抽取系统,主要抽取网页新闻的标题,超链接,正文内容等相关信息。该系统能实时的进行网页内容抽取,并将抽取结果以可视化的方式呈现给用户,同时,系统从实验角度验证本文方法的有效性。实验表明,对于基本的新闻相关信息,本文提出的方法具有较高的抽全率和抽准率,并且在一定程度上提高了Web信息抽取的实时性和准确性。
其他文献
藏族文化拥有独特性以及完整性,藏族服饰是藏族文化传承中的一种,具有非常鲜明的特点.当代油画教学中倡导发展新的理念,将藏族服饰应用到油画教学中具有非常重要的意义与价值
现阶段福建高考要求生物教学要切实提高学生的综合解题能力.但由于每个学生的成长环境是不一样的,个体之间必然存在着差异,这就要求教师在教学过程中要正视学生间的个体差异,
随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过
目的:研究经过中西医结合治疗后乳腺癌患者的生活能力评分,探讨中西医结合治疗乳腺癌在改善患者生活能力方面的作用。方法:将浙江中医药大学附属第二医院收治的乳腺癌患者120
粗糙集理论是一种新的处理不一致数据的数学工具。它在机器学习、决策分析和数据挖掘等方面已经有了成功的应用。但是,它要求所处理的信息系统中的数据是精确的和不缺损的。
传统工艺美术尤其是少数民族工艺美术是我国珍贵的文化遗产,具有极高的艺术价值和实用性,将其应用到现代艺术设计中能够使现代艺术设计更具有文化底蕴和艺术美感,如环境艺术
随着计算机网络技术的不断发展,企业信息化普及程度得到了很大提高。在企业内网中越来越多的电子文档保存在计算机中,并逐步取代传统纸质文档。这一改变在给人们工作带来便捷
《普通高中“研究性学习”实施指南》中指出:“研究性学习是学生在教师指导下,从自然、社会和生活中选择和确定专题进行研究,并在研究过程中主动地获取知识、应用知识、解决
步入21世纪已经有15个年头了,摆在生物这门古老的学科面前的路,正走的越来越宽.通过与化学的交叉应用,生态毒理学的开展为促进污染物的降解提供理论依据及工程技术.通过国内
有些记者,每到一个地方采访,总能很快抓到一批有时代气息的新闻。他们经常是手里有写的,脚下有采的,工作十分自如泰然。我也希望自己成为这样一个记者,我深入实践,勤奋努力,