动态页面的web信息抽取方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:asgtzyj_lxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取是web领域的一项重要研究课题,研究范围涵盖信息检索、数据挖掘、人工智能等多门学科领域。Web信息抽取系统的智能性、准确性与适应性一直是该领域的研究重点与追求目标。 当前大多数web信息抽取方法的处理对象都是某类网站的静态页面集,抽取内容相对比较简单,因此缺乏分析多种页面结构并抽取逻辑信息记录的机制。本文提出了一种基于动态页面集的信息抽取方法,抽取对象为实时生成的查询结果页面集,抽取内容为多个逻辑相关的信息项组成的信息记录。该方法使用XML配置文件对页面集的元数据与先验规则进行描述,并借用了文档图像处理中表格图像分析的基本方法与机制实现了对查询结果页面的解析与信息记录的智能提取。 本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。
其他文献
近年来,随着人们对摆脱有线网络束缚、随时随地可以进行自由通信的渴望,无线网络通信得到了迅速的发展。但是,目前的移动通信大多需要有线基础设施(如基站)的支持才能实现。
红外热象仪在军事和商业上应用广泛。非制冷红外图像采集系统作为热象仪的关键部分,以其价格低、可靠性高、体积小、功耗低等优势在红外热成像系统的发展中占据着重要地位。本
随着互联网的持续发展,人们对网络中内容的需求越来越大。当前基于TCP/IP的网络架构在网络控制、资源分配等方面的问题日益突出,互联网的重心已经从主机与主机之间的通信转移
随着科技的发展,计算机的计算能力越来越强,计算速度越来越快,但人类对高性能计算的需求也越来越高。除了增强处理器本身的计算能力外,并行处理是一种提高计算能力的有效手段
在网络多媒体通信中,视频压缩和传输技术起着越来越重要的作用。近些年来,许多视频压缩国际标准相继被提出,如MPEG系列标准和H.26x系列标准,它们被广泛应用于数字广播电视标
WebService技术框架具有完全的平台、语言的独立性和更高程度的抽象,用户只要遵守WebService的接口即可进行服务的请求与调用。基于Web服务的统一身份认证系统是指利用一个集
IMS(IPMultimediaSubsystem)是3GPP在Release5版本提出的支持IP多媒体业务的子系统,它的核心特点是采用SIP协议和与接入的无关性。在网络融合的发展趋势下,3GPP、ETSI和ITU-T都
医学图像分割问题一直是图像处理领域中的经典难题。大脑组织具有特别复杂的结构,为了得到脑部病变组织的尺寸、外观的量化信息和实现脑部结构的三维重构,脑组织图像分割显得
无线个人网络(WPN),作为一种新型的网络,由于其良好的性能特点和广泛的应用前景,正成为目前无线网络领域中研究的热点问题之一。在无线个人网络的诸多研究内容中,路由是保证无线
随着计算机技术的发展和网络带宽的提高,互联网上的图像资源变得越来越丰富,它们被大量的内嵌在HTML网页中,构成了一个庞大的“互联网图像库”。信息量的庞大和纷繁复杂使互