基于网站结构分析页面信息提取的方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:cfj4208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需的信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。本文针对Web信息精确获取的需要,研究了基于网站结构的精确获取网页内容信息所涉及的技术,并将这些技术有机地结合在一起,系统地讨论了基于网站结构分析页面信息提取的方法研究。 网页内容信息获取是信息挖掘技术中一个重要技术,是指从Web上大量的信息中得到数据对象间的内在特征,并以此为依据进行有目的的信息获取的方法。它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域。本文首先对以前的WEB获取技术进行了全面的回顾,并总结了当前搜索工具所存在的主要问题及局限性,如检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等。然后,提出了基于网站结构分析页面信息提取的方法,重点研究了生成网站结构、相似页面的判断、生成自适应模板以及生成目标XML等涉及的主要技术及算法研究,提出了一个网页页面内容精确获取的解决方案。 本文通过获取网站的所有页面,根据这些页面的内容以及这些页面之间的链接关系,结合URL(UniformResourceLocator)之间的相似性,计算网站的结构,并根据网站的结构和页面的内容特征将页面进行归类,然后对同一类的页面进行信息模板的自动生成,并将信息模板的结构生成目标XML。在此基础上,基于网站结构分析页面信息提取的方法,研究从XML中提取目标信息的特征,然后根据目标特征进行有目的的搜寻,将搜寻到的信息提交给用户,以获得使用户满意的结果。
其他文献
目前在普遍采用关系数据库技术或对象/关系数据库技术的虚拟制造环境中,不能对主要操作复杂数据的虚拟制造环境提供有效的支持。同时,在虚拟制造环境下产品装配过程中的冲突检测
关联规则是数据挖掘中的一个比较活跃的分支,它用于发现数据库或数据仓库中潜在的、对用户感兴趣的信息。本文在分析目前关联规则挖掘算法中存在的不完善之处的基础上,提出了
PC104工业控制计算机在国内嵌入式应用领域占据了较大的市场份额。但是,国内PC104产品的核心集成电路,如处理器和芯片组等,全部依赖进口。研究开发高性能工业控制计算机系统
Petri网以其简捷、直观、潜在模拟能力强等特点被广泛用于离散事件系统的模拟和分析中。Petri网的主要特点包括:并行、不确定性、异步和分布描述能力和分析能力。活性(Livene
网格是近年来发展起来的重要信息技术,是继传统互联网、Web之后的第三次浪潮,可以称为第三代互联网应用。网格的目标是实现互联网上所有资源的互联、互通和协同工作。网格的根
  本文对产品设计中的分形理论及其应用进行了研究。文章论述了分形的数学基础,包括分形的定义、维数、分形的基本原理、典型分形集的分析,分析了分形的基本方法,L系统和迭代
信息安全所面临的危险已经渗透于社会经济、军事技术、国家安全、知识产权、商业秘密乃至个人隐私等各个方面。网络安全是计算机网络及其应用领域中一直在研究的关键问题。然
本文对基于P2P网络的匿名通讯技术的实现进行了研究。文章在设计和实现TreeMix系统的过程中具体做了如下几个方面的工作:1.采用基于非结构化的P2P网络拓扑结构,提高匿名系统网
远程即时支持系统是一种基于C/S模式的远程客户服务平台。其主要功能是通过互联网建立起任意PC机之间的连接,实时传递远端PC上的动态图像信息,并配以远程控制、文件传输、聊天等
视频点播系统是一种针对用户需求,向其提供交互式视频服务的系统。当大量用户提出请求,以及需要存储众多视频文件等情况发生时,视频点播系统就会面临存储空间容量、硬盘I/O、处理