Web页面信息自主抽取技术的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:king0083
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源.但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息.如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题.该文基于表格结构及列表结构Web信息源提出了Web页面信息自主抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,该文主要工作包括以下两个方面:第一,对表格结构信息源的信息抽取.仅需标注一页网页,即可获取抽取知识,通过自学习能够较好的适应网页信息的动态变化,实现信息的自动抽取.第二,对列表结构信息源信息的抽取.通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值.该文与其它抽取方法比较有三个特点:1.用户可以定制信息,即可根据用户的需求自主地抽取信息.2.用DOM树结构中的路径表达式来定位HTML中要抽取的信息;3.采用自学习的方法以适应网页信息的动态变化.在理论上,抽取规则很有特点,在实际应用中不但可直接应用于Web查询和搜索,也可用于其它应用(例如数据仓库和数据挖掘等)的数据准备.
其他文献
网络动态防御系统已经成为保护网络信息安全的一种重要技术.入侵响应技术是动态防御系统P
WWW网是一个庞大的、分布式的超媒体、超链接的信息系统.用户顺着网页上的超链接寻找需要的资源.随着互联网信息的迅猛增加,如何有效地从互联网上寻找出自己所需要的信息,已
由多个自治Agent组成的系统代表了一种新的复杂软件系统的开发方法,极大推动了现有的软件工程实践.这种面向Agent的方法引入了新的抽象范型,使得在软件设计和开发上的许多问
万维网通信量的分析与建模对万维网设计中制定缓存大小、重发策略和舆协议等都起到重要的指导作用.近年来的研究分析结果表明,实测万维网通信量呈现出明显的自相似性,这是经
该论文对基于短消息业务的数据挖掘系统的子系统短消息业务相关性分析系统进行了研究与实现.该论文首先分析设计了基于短消息业务的数据挖掘系统;然后对短消息业务相关性分析
该文利用模糊神经网络学习算法重点对模糊规则基进行优化.在对国内外常用的模糊神经网络学习算法进行了深入分析的基础上,对模糊规则基的优化和初始参数的设定方面进行了详尽
粗集理论是近年来发展起来的一种有效地处理不精确信息、含糊信息的数学理论方法,在机器学习、知识发现、模式识别等领域取得了很大成功.研究者从不同角度对这个理论进行研究
随着互联网规模的飞速发展,如何高效合理地使用现有的网络资源,保障网络健康良好地运行,已经成为一个研究的热点问题.网络行为学的主要目的就是将业务流量在现有的网络拓扑结
随着移动互联网的迅速发展,使用手机等移动终端进行移动上网的网民越来越多。与此同时,移动网络带宽资源变得日益紧张,而且对网络的优化也变得更加困难和复杂。如何在现有网
作为信息时代的桥梁,Internet已经渗透到社会经济的各个领域,对社会经济发展起着越来越重要的作用.为了保证Internet的运行效率和服务质量,进一步了解网络行为规律,必须通过