论文部分内容阅读
网络已经快速融入到人们生活当中,特别是B2C与C2C的应用,使得用户通过网络能很容易的搜索以及获取所需要的信息与物品。图书网站是指存在于互联网上的那些大型或者小型的主要提供图书销售及其服务的网站或者模块,书价、物流、商家的存货以及相应的各项服务一直是用户重点关注的地方。然而除了京东商城、卓越亚马逊和当当网等大型网站具有专门的售书以及相应服务以外,其他那些相对较小的图书网站就显得比较孤立。这些网站往往在地理位置和功能结构上相对比较孤立,然而他们对整个网络和用户而言又是非常重要的。信息集成能够将多个相对独立的、分布的、异构的信息源整合起来,通过建立全局而且统一的视图,使得无需考虑数据类型、存储位置等诸多影响因素,随时随地提供对数据统一且透明的访问,为用户提供简单高效的查询方式,最终实现信息资源的共享。本文旨在构建一个图书网站信息集成系统,通过采集与集成各大图书网站的图书信息,以帮助人们快速从各种图书网站中快速准确的找到所需的图书信息。由于本信息系统是针对各种图书网站而建立,因此本系统具有很强的针对性,会为用户提供用户所需要的各方面图书信息,以便用户做出选择。文章第一部分主要讲述了本文的缘起与目的意义,以及国内外在此方面的研究进展与成果;第二章则介绍了本系统中涉及的主要概念,包括深层网络以及网络挖掘等;第三章详细叙述了本系统涉及的关键问题及其研究,包括图书网站初始检索页面以及检索结果所涉及的信息抓取技术,还包含为了访问目标网站深层信息所需要的表单自动填充技术,最后是对检索结果的处理并抽取所需要的信息抽取技术;第四章主要分析本系统的目标以及对系统进行整体分析与设计,同时提出系统优化与相关安全性与保密性等设计;第五章回顾了整个文章的工作之后提出以后的工作方向与要点。