xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息

来源 :计算机科学 | 被引量 : 0次 | 上传用户:GYQ865739853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。
其他文献
提出了一种数据空间中的命名实体集成模型(NEIM)及其在异质异构数据源中的集成方法。命名实体模型描述了数据源、实体与实体描述间的关系,能够实现从其中任意一个息查询到其它
合理的调度可以在很大程度上提高人力资源在软件项目开发中的利用率。在研究了现有的任务调度算法的基础上,考虑了软件开发任务的可拆分特性,结合员工的技能水平与项目经验对
基于系统调用的入侵检测是当前信息安全领域的研究热点之一。全面分析了已有的基于系统调用的入侵检测的理论与技术,总结了近年来的研究进展,并对其发展趋势进行了展望。随着
在物理隔离情况下,为确保内部网络的安全,数据只能从低密级网络向高密级网络传输。由于没有信息反馈,单向网络协议使传统数据库同步技术无法生效,且数据在传输过程中极容易发
为弥补粒子群后期收敛缓慢与早熟的不足,提出了一种局部搜索与改进MOPSO的混合优化算法(H-MOP-SO)。该算法首先采用非均匀变异算子和自适应惯性权重,强化全局搜索能力;继而建立
分析了IPv6技术与P2P技术的发展现状与特点[1],在理论和技术研究的基础上,提出了IPv6下P2P视频系统的整体实现架构,采用C++编程语言,利用ACE网络编程库,实现了在IPv6网络环境
系统地总结了现有的具有最大代数免疫度的布尔函数的构造方法,将现有各种构造方法按其构造思想的不同分为有代表性的几类,并分别介绍了基于这几类方法的一些结果和进展,其中
直接数字频率合成(DDS)技术由于输出杂散信号多且难预测,限制了其发展和应用。依据DDS基本原理,利用傅立叶变换法分析了理想DDS输出频谱特征,推导了相位截断引入杂散信号的频
传统的UDDI不支持语义推理以及基于服务属性的匹配,因此存在召回率低、匹配效率低等问题。基于此问题提出了一种基于Petri网的OWL-S语义匹配机制,即借助Multi-Agent服务发现
依靠基因调控网络来预测农作物的表现型,对于保障全球的粮食安全有着极其重要的意义。提出了一种基于笛卡尔遗传规划(Cartesian genetic programming)和线性递减惯性权重粒子群