论文部分内容阅读
随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需的信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。本文针对Web信息精确获取的需要,研究了基于网站结构的精确获取网页内容信息所涉及的技术,并将这些技术有机地结合在一起,系统地讨论了基于网站结构分析页面信息提取的方法研究。
网页内容信息获取是信息挖掘技术中一个重要技术,是指从Web上大量的信息中得到数据对象间的内在特征,并以此为依据进行有目的的信息获取的方法。它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域。本文首先对以前的WEB获取技术进行了全面的回顾,并总结了当前搜索工具所存在的主要问题及局限性,如检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等。然后,提出了基于网站结构分析页面信息提取的方法,重点研究了生成网站结构、相似页面的判断、生成自适应模板以及生成目标XML等涉及的主要技术及算法研究,提出了一个网页页面内容精确获取的解决方案。
本文通过获取网站的所有页面,根据这些页面的内容以及这些页面之间的链接关系,结合URL(UniformResourceLocator)之间的相似性,计算网站的结构,并根据网站的结构和页面的内容特征将页面进行归类,然后对同一类的页面进行信息模板的自动生成,并将信息模板的结构生成目标XML。在此基础上,基于网站结构分析页面信息提取的方法,研究从XML中提取目标信息的特征,然后根据目标特征进行有目的的搜寻,将搜寻到的信息提交给用户,以获得使用户满意的结果。