WEB实体信息的提取算法及其应用研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:programmelove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的高速发展和普及,互联网已经成为了一个十分重要的信息源。而许多互联网用户也越来越迫切的希望能够在浩瀚的互联网中高效准确的找到目标主题页面并对主题页面实现定制化实体信息提取。传统的搜索引擎领域中主题爬虫和垂直爬虫是获取特定主题和特定网站数据的较为普遍流行的方法,但是主题爬虫更注重于主题页面的搜索,往往忽视对页面信息精确抽取的深入研究,而垂直爬虫虽然可以对一个网站实现精准信息抽取,但是其一大弊端就是可移植性较差,无法对不同网站实现通用的爬取,自动化程度较低。经典的WEB信息提取方法,虽然在各自适应的领域取得一定的成果,但是也都有其适应范围的局限性和提取算法效率低的问题;同时,这些方法基本都只侧重于对目标WEB页面实体信息抽取的研究,而忽略了对目标页面的搜索策略的研究;因此,现有的经典WEB实体信息的抽取方法都有其适用范围和研究范围的局限性。本文针对垂直爬虫无法直接移植到其他网站并且程序设计需要大量人工干预的弊端,以及经典WEB实体信息抽取方法的局限性,提出了一种高效的,且具有高可移植性的WEB实体信息提取算法,而提取算法的研究又包括了主题页面搜索定位和页面信息提取两个部分:(1)在主题页面搜索定位部分,提出了有监督的广度优先网页带权搜索策略,自动识别主题目标和目录页面URL以及利用URL聚类生成URL正则表达式过滤器,利用正则表达式过滤器广度优先大范围搜索相关页面,同时辅以基于隧道技术的网页权值计算达到有监督的最佳优先的效果,通过实验证明本文设计的搜索策略能够保证爬虫充分、快速、准确的对于主题相关页面的定位及下载,具有较高的搜索效率和准确率。(2)在页面信息提取部分,结合多种经典WEB信息提取技术的优势提出了基于配置信息的数据解析路径模板自动生成方法,基于配置信息可以让爬虫实现对于定制化WEB实体信息的准确完整提取,而自动生成数据解析路径模板则可以充分保证信息抽取的高效性和准确性,并能够提高自动化程度。利用本文提出的WEB实体信息提取算法的原理,本文设计实现了一种通用型垂直爬虫系统,该系统的实现是WEB数据采集器方面的一个具体应用,并且该系统可以在便捷的配置信息后,实现对不同网站的高效、快速、准确的定制化数据爬取,可移植性高且通用性强。同时,也证明了本文提出的WEB实体信息提取算法的合理性和有效性,具有较高的应用价值,也丰富了WEB信息抽取领域的理论和应用研究。
其他文献
可持续发展理念要求我们在社会实践过程中,在满足现代人们需求的基础上不损害后代人的发展权利,要求人类与环境相互协调,得到长足的发展。水文地质与环境地质是自然环境中的
【正】 目前国企资产负债率市场为70%,有的企业负债率已超过100%,出现资不抵债的情况。人们在谈及国企困难时说第一是资金,第二是资金,第三还是资金。这话虽然有偏颇,但资金缺
<正>在全国机构改革大潮中,国税地税征管体制改革率先拉开大幕。2018年6月15日,国家税务总局重庆市税务局挂牌成立;2018年10月底,重庆市税务系统定职责、定机构、定编制全部
本文采用监测分析的方法,对淄博市2013~2016年畜间布鲁氏菌病监测情况进行了统计和分析,结果表明,牛羊布鲁氏菌病的阳性率不同,地域不同的阳性率也不一致。
正史总是枯躁无味的,正如偏房永远比元配有趣一样。这次盘点,我们决定不装蛋,不求全,不凑热闹,放弃野心,只是去关注那些具体的值得关注的事儿和电影,然后,坚定不移地发出的我
期刊
1.家禽电动脱毛机家禽脱毛机系列,分为小型、中型、大型,用于鸡、鸭、肉鸽、鹌鹑等禽类宰杀后的脱毛,能一次性脱净羽毛、细毛、脚爪及皮表污垢。1台设备的工作效率相当于10多
三维动画创作题材可选取可以民俗艺术的传播与传承进行展开,探索其传播的新形式新方法,总结动画表现形式演绎地方文化内容的制作规律,传统歌舞素材和歌曲片段制作剧情动画,提
问:现在农村五保户的申请条件是什么?答:很多人一提“五保供养对象”就以为是老人,其实,“五保”供养对象不仅是老人,还有符合条件的残疾人或者未满16周岁的村民。山东淄博市民政局
<正>税收征管是税收工作永恒的主题,不断深化税收征管改革一直是各级地税机关重要的任务。近几年来,广西地税系统紧紧围绕税收征管现代化目标,主动适应经济税收发展新常态,积
在确定全透水人行道材料配合比及结构层厚度基础上,制作比尺模型并进行4个路面结构层间2015年5月14日至6月1日温度场实测,研究全透水人行道对海绵体城市建设的有效性。通过对