基于分块的Web信息抽取系统研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户：taizi0204

【摘要】

：

伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题

【作者】

：

王超

【机构】

：

中国石油大学(华东)

【出处】

：

中国石油大学(华东)

【发表日期】

：

2012年期

【关键词】

：

计算机网络数据挖掘信息抽取程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题。伴随着这些需求,结合传统信息抽取技术,Web信息抽取应运而生。本文在学习已有信息抽取方法的基础之上,结合近几年涌现的新技术、新方法,展开Web信息抽取技术的研究。　　本文介绍了信息抽取的起源、发展过程、基本概念、方式方法,在此基础上,对Web信息抽取系统中的关键技术作了详细分析,包括页面清理、规范化处理、页面结构分析、典型页面抽取器等。结合Web技术发展趋势,本文从分块入手,探究一种高效的Web页面分块及正文块提取方法。通过对页面DOM树中的信息节点增加偏移量、字符数属性,将信息节点映射到二维空间。随后,利用CURE算法进行信息节点聚类,得到的各个簇即对应Web页面的各个信息块。最后在已经分好块的基础之上,本文寻找到了不同信息块之间区分度较大的三个特征,并构造权值公式,通过此公式计算各个信息块的权值,取权值最大的信息块作为正文数据区域。最后,给出了系统的总体架构以及各个模块的具体流程,并对该系统的聚类、信息抽取效果进行了实验,且给出了对比分析。实验表明,本文提出的基于分块的Web信息抽取系统具有较高的正确率,是可行的。

其他文献

基于哈希值自适应量化的图像认证研究

数字图像已经广泛的应用在人们的日常生活中，而图像处理技术却为图像信息安全提出了挑战。检测图像是否被恶意篡改、保证图像信息的完整与健壮成为人们的需求，而利用可感知的哈

学位

感知哈希函数自适应量化算法小波变换随机像素转换图像认证

基于服务器集群预留机制的高级云体系架构研究

当前信息领域的研究热点——云计算带动了整个商业模式的转变，延伸出了新的商业体系。对于终端用户来说，它宣告了低成本提供超级计算时代的到来，给用户、产业界及各国政府带来深

学位

高级云体系架构预留机制任务背叛最小成本函数云计算仿真器

面向回归测试的测试数据扩增方法研究

回归测试是指修改了程序后,需要重新进行测试来确保修改程序没有引入新的错误或导致原有程序产生错误,为确保软件的可靠性,软件在迭代开发的过程中通常需要进行多次回归测试

学位

回归测试测试数据扩增路径相似度谓词距离粒子群算法

塘沽市容管理局电子政务系统的设计与实现

论文以“塘沽市容管理局电子政务系统”为基础，根据在分析、设计、实现系统过程当中遇到的各种技术问题及解决方案，总结提炼成文。实现这个系统意义重大，系统可以促进市容行业信

学位

MOSS电子政务塘沽市容

基于支持向量机的多类网页分类方法

随着互联网的迅猛发展,为了有效地组织和分析这些海量的网络信息,人们希望对网页实现自动分类。因此,网页分类技术成为快速有效地组织网络信息的一项重要技术。而支持向量机(

学位

数据挖掘网页分类反馈学习支持向量机

基于Savant中间件的物联网底层数据缓冲区管理策略的研究

随着物联网概念的普及和系统的不断发展扩大,物联网越来越呈现出数据量大、实时性高和网络环境复杂的特点,然而,物联网中的中间件属于数据处理能力有限的弱计算环境平台,当系

学位

Savant缓冲区数据处理数据调度数据筛选

新关联规则挖掘算法在WEB挖掘上的研究和应用

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种信息技术，它融合了数据库、人工智能以及统计学等多种学科，试图从数据库中提取出先前未知、有效和实用的知识

学位

WEB挖掘关联规则挖掘算法粗糙集单事务项

程序可视化表示中指针信息抽取、存储与表示方法的研究

计算机应用技术的快速发展，使程序的更新速度日益加快，对遗留系统的维护占用了大量的人力、物力。程序理解技术在一定程度上促进了维护人员对程序的理解效率，降低了维护和再开发

学位

信息抽取可视化表示引用关系代码对象视图布局算法

基于商空间的多因素时间序列分类预测

随着计算机软件、网络科学技术的发展,现今社会的信息化程度越来越高,每天都有大量的信息产生并被以时间序列数据的形式存储。面对如此庞大的信息量,如何利用这些数据序列成

学位

时间序列预测商空间覆盖算法GM(11)

用于图像认证的自嵌入数字水印算法

随着计算机网络技术的飞速发展,数字多媒体的出现极大丰富了人们获取信息的手段,也方便了信息的存取和传输。然而,多媒体信息在传输过程中会遭到各种有意或无意的篡改攻击。

学位

认证水印哈达玛变换JPEG压缩小波变换

基于分块的Web信息抽取系统研究

与本文相关的学术论文