【摘 要】
:
伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题
论文部分内容阅读
伴随着互联网的快速发展,Web信息量急剧增长,这也对我们使用互联网信息提出了巨大的挑战。如何准确、快速地从Web页面中提取所需信息己经成为人们利用互联网首先要面临的问题。伴随着这些需求,结合传统信息抽取技术,Web信息抽取应运而生。本文在学习已有信息抽取方法的基础之上,结合近几年涌现的新技术、新方法,展开Web信息抽取技术的研究。
本文介绍了信息抽取的起源、发展过程、基本概念、方式方法,在此基础上,对Web信息抽取系统中的关键技术作了详细分析,包括页面清理、规范化处理、页面结构分析、典型页面抽取器等。结合Web技术发展趋势,本文从分块入手,探究一种高效的Web页面分块及正文块提取方法。通过对页面DOM树中的信息节点增加偏移量、字符数属性,将信息节点映射到二维空间。随后,利用CURE算法进行信息节点聚类,得到的各个簇即对应Web页面的各个信息块。最后在已经分好块的基础之上,本文寻找到了不同信息块之间区分度较大的三个特征,并构造权值公式,通过此公式计算各个信息块的权值,取权值最大的信息块作为正文数据区域。最后,给出了系统的总体架构以及各个模块的具体流程,并对该系统的聚类、信息抽取效果进行了实验,且给出了对比分析。实验表明,本文提出的基于分块的Web信息抽取系统具有较高的正确率,是可行的。
其他文献
数字图像已经广泛的应用在人们的日常生活中,而图像处理技术却为图像信息安全提出了挑战。检测图像是否被恶意篡改、保证图像信息的完整与健壮成为人们的需求,而利用可感知的哈
当前信息领域的研究热点——云计算带动了整个商业模式的转变,延伸出了新的商业体系。对于终端用户来说,它宣告了低成本提供超级计算时代的到来,给用户、产业界及各国政府带来深
回归测试是指修改了程序后,需要重新进行测试来确保修改程序没有引入新的错误或导致原有程序产生错误,为确保软件的可靠性,软件在迭代开发的过程中通常需要进行多次回归测试
论文以“塘沽市容管理局电子政务系统”为基础,根据在分析、设计、实现系统过程当中遇到的各种技术问题及解决方案,总结提炼成文。实现这个系统意义重大,系统可以促进市容行业信
随着互联网的迅猛发展,为了有效地组织和分析这些海量的网络信息,人们希望对网页实现自动分类。因此,网页分类技术成为快速有效地组织网络信息的一项重要技术。而支持向量机(
随着物联网概念的普及和系统的不断发展扩大,物联网越来越呈现出数据量大、实时性高和网络环境复杂的特点,然而,物联网中的中间件属于数据处理能力有限的弱计算环境平台,当系
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种信息技术,它融合了数据库、人工智能以及统计学等多种学科,试图从数据库中提取出先前未知、有效和实用的知识
计算机应用技术的快速发展,使程序的更新速度日益加快,对遗留系统的维护占用了大量的人力、物力。程序理解技术在一定程度上促进了维护人员对程序的理解效率,降低了维护和再开发
随着计算机软件、网络科学技术的发展,现今社会的信息化程度越来越高,每天都有大量的信息产生并被以时间序列数据的形式存储。面对如此庞大的信息量,如何利用这些数据序列成
随着计算机网络技术的飞速发展,数字多媒体的出现极大丰富了人们获取信息的手段,也方便了信息的存取和传输。然而,多媒体信息在传输过程中会遭到各种有意或无意的篡改攻击。