动态网页的信息抽取方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:bonbonty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取将Web中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成的页面。据统计,目前Web上的页面主要是以动态网页的形式存在。因此,研究动态网页的信息抽取方法,具有较大的实用价值。 本文将动态网页分为记录级和页面级两类,主要工作包括:(1)针对记录级动态网页,提出基于相似记录项归纳(Similar Records Induction,SRI)的信息抽取方法。该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树,并为抽取到的信息手工标注标签。(2)针对页面级动态网页,提出基于相似页面归纳(Similar Pages Induction, SPI)的信息抽取方法。该方法首先清洗样本网页集,然后通过树排列算法,归纳产生页面的包装器树,并选择模板字符串为相邻信息自动标注标签。(3)针对记录级动态网页的标签自动获取问题,提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的记录项字段识别和抽取方法。该方法将记录项作为字段值的序列,并采用HMM对字段值的标签进行分类标注。 本文将上述方法用于实验室和深圳华为技术有限公司合作开发的“电信研发平台”。实验结果表明,上述方法具有较高的召回率和准确率,在实践中是可行的。
其他文献
随着软件技术的发展,尤其是Web服务的出现,面向服务的新的软件系统开发方法——SOA(Service-Oriented Architecture)被提出并得到迅速发展。SOA作为软件体系结构最具应用前景
在嵌入式系统中,引导/装载程序通常负责对内核的引导和为软件开发提供一个良好的调试环境,在传统的引导/装载程序中,仅完成简单的引导工作和基本的调试接口。随着嵌入式系统
现有的虚拟机系统处理图形应用时大部分依赖于处理器和内存模拟的虚拟显卡,而虚拟显卡的主要功能是用来显示简单的图形界面,并不具备硬件图形加速的能力。当处理复杂的图形应
无线传感器网络综合了传感器技术、微型机电系统(MEMS)、无线通信技术、分布式信息处理和嵌入式计算等技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处
几乎在所有岩体中都存在裂隙,精确有效的获得岩石节理裂隙的几何信息,对于岩石工程项目的成败,山体灾害的精确预测起着至关重要的作用。岩石节理粗糙度系数JRC(Joint Roughne
学位
以IPv4为核心协议的互联网获得了巨大成功。然而,随着因特网与因特网服务不断地突飞猛进,IPv4在因特网的目前规模与复杂性面前已经暴露其不足之处,这些问题成为制约互联网发展的
得益于无线通信技术和低功耗嵌入式技术的飞速发展,一种新兴的分布式网络正得到广泛的关注。Wireless sensor networks,简称WSN,即无线传感器网络是由大量网络节点(传感器节
运用了TCP/IP的Internet在互连全球通信网络上取得了巨大的成功,但随着科学技术的发展和各个领域新的通信需求的提出,出现了一类新型的“受限网络”[1]。这类网络具有节点的随
随着互联网技术的飞速发展,以及网络普及率的日益上升,越来越多的信息在网上传播,网络已逐步成为了人类信息交流沟通的主要途径。图像信息作为多媒体的最主要的信息在网上越
主题网络爬虫是主题搜索引擎的关键技术。主题爬虫能够智能地采集与特定主题相关的网页,而避免不相关网页的访问;主题爬虫的提出与运用能够极大缓解目前基于通用网络爬虫的搜