论文部分内容阅读
随着信息技术的迅猛发展,网络成为人们获取信息的主要手段。为了帮助人们在浩如烟海的互联网中得到有用的信息,基于 Internet的各类信息检索服务应运而生并得到了迅速发展。目前,人们在互联网上搜索信息主要是通过Google、百度等通用搜索引擎,这类搜索引擎的功能已十分强大,在一般情况下可以满足用户的需求。然而,当用户只想查询具体某专业、某行业或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心,垂直搜索引擎的出现就是为了解决这类问题。因为它服务于特定领域,注重于专业化与结构化 Web信息的整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。 本文针对垂直搜索研究热点,主要研究内容有以下四个方面: (1)结合国内外研究现状、关键技术及存在问题,针对垂直搜索进行了理论性的分析,介绍了垂直搜索概念、优势、关键技术及其发展方向。 (2)主题爬虫必须解决的三个主要问题:一是对各异构Web数据源的抓取目标的描述或定义;二是对网页或数据的分析与过滤;三是对URL的搜索策略。针对以上三个问题,本文提出了基于Heritrix开源爬虫的聚焦网络爬虫设计。通过抓取过程策略与算法分析、抓取过程数据流图设计及扩展与定制Heritrix完成了特定网页的抓取。 (3)“结构化”是垂直搜索的特征之一,即垂直搜索要利用信息抽取技术把网页打碎,从中提取出精细化、条目化的信息,存放到数据库中。为了完成网页结构化数据抽取,本文结合现在的网页结构化信息抽取技术,提出了Web实体提取方法。并在文中阐述了Web实体提取的定义、原理、方法及实现。并通过实验验证了该方法的可行性,满足了垂直搜索对网页结构化数据抽取的需求。 (4)在现有的研究基础上,设计了一个实际的新书信息垂直搜索系统。该系统根据垂直搜索的架构和运行原理而设计,容纳了垂直搜索引擎的关键技术,满足了实际的应用需求。并且具备良好的可扩展性和可修改性,有较好的实际应用价值。 本文的贡献主要在于合理地整合运用了开源项目,提出了Web实体提取方法,采用目前流行的B/S开发架构与技术,给出了一个实用的面向垂直搜索的解决方案。该方案具有一定的扩展性及参考性。