基于元数据的web信息提取方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:thangna9806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据。 本为为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,本文的主要工作有以下四部分: 1 对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项;根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项。 2.利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项。 3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1;其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后,利用平面聚类和C__均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项。 4.试验结果表明:本系统对语义性元数据项填写取得很好效果。
其他文献
船舶的有效识别对船舶安全保障、船舶走私监管、海上态势评估有着重要的意义,而我国目前对海上尤其是中远海范围船舶的身份识别和监管能力仍很薄弱,亟待提升。已有的船舶识别系
近年来,随着互联网用户的增长、应用种类的丰富、服务质量要求的提高以及云计算等新兴计算模式的发展,数据中心的数量和规模得到了迅速发展;为了满足数据中心中服务器之间的大
网络技术的迅速发展使多媒体通信的应用和研究受到前所未有的重视,但由于目前网络有限的带宽、Internet的分组丢失率、无线网络的高误码率、网络异构性以及网络延迟等多种因素
为了适应工程项目的需求,进一步缩小该系统的体积、提高系统的实时性,作者仔细分析了Linux内核,得到了Linux实时性不强的原因,在此基础上提出了具体的改进方法.在虚拟内存管
在信息化时代计算机扮演着越来越重要的角色,越来越多的企业、商家、政府机关和个人通过网络获取信息、处理信息。同时人们将大量的重要信息,以数据文件的形式保存于计算机或存
随着互联网和移动通信技术的发展,移动应用业务将逐步从以语音为主转换到以数据业务为主,越来越多的人们对信息的获取提出更高的要求,即实现随时随地访问Internet并且从Internet
在这篇文章中我们对任播服务研究的现状进行了较深入的分析与研究,并提出了一种网络层的任播服务构架和相应的路由协议HHA.在这个构架中我们主要采用了四种方法用以解决任播
作为一种有效的网络安全技术,防火墙通常被设置在Internet和内部网络之间,依据预先设定的安全策略,对进出内部网络的数据包实施合法性过滤和检查,从而实现对内部网络的保护。
该文首先介绍了解两种相关的绘制方法——基于图像的绘制(IBR)和体绘制(Volume Rendering),以及基于点的绘制与他们的关系.进而分析了当前基于点的绘制的几种主流技术以及基
云计算作为一种新型计算模式,以云数据中心为核心基础设施向用户提供按需和弹性的计算服务。然而,随着不断增长的用户需求以及对数据中心高可用性、灾难恢复的要求,通过单个数据