论文部分内容阅读
随着信息管理技术的应用越来越广泛、越来越深入,科研信息管理系统在实施技术上越来越成熟。以往的科研信息管理系统只是将现有的信息录入并保存在系统数据库中,并没有对信息进行有效性验证,所保存的信息可能不准确,对后续的科研工作总结、考核等带来很多不便。本文系统是基于主题网络爬虫技术实现科研信息资源的搜索、抓取和分类等功能,通过将信息分类存储到本地资源服务器,实现对科研信息的验证,并实现对下载资源的添加与删除管理。通过对已下载资源的检索,能够有效地避免重复下载相同的信息资源,为科研信息的管理和验证工作提供有效的数据支撑。该系统以实际应用为开发背景,利用软件工程原理、软件开发方法以及利用ASP.Net技术构建了一个基于B/S(浏览器/服务器)模式的科研信息管理系统。本文的重点和难点在于对科研信息管理系统中信息验证的关键技术的研究及实现,提出一种适用于主题网络爬虫的科研信息管理系统模型,设计出一套相对完整、可行性较高的解决方案。本文对网络爬虫和科研信息管理进行深入研究,目的是建立基于主题网络爬虫的科研信息管理系统,该系统要求能够实现对科研信息进行管理,并实现对科研信息的验证,本文的主要研究内容如下:1在现有科研信息管理系统基本没有信息验证的背景下,本文将主题网络爬虫技术引入到信息管理系统中。在系统需求分析的基础上,结合主题网络爬虫技术,给出详细的系统设计解决方案,讨论了系统中主题网络爬虫在信息检索、信息下载、信息保存等方面的功能和实现方法。2针对主题网络爬虫,本文在充分研究传统网络爬虫的架构及其工作原理的基础上,进一步对网络爬虫的实现进行深入研究,包括网页的解析、网页内容的提取等,然后针对科研信息管理的功能特性,选择向量空间模型为爬虫的基准模型,并在此基础上设计出基于网页内容的网络爬虫搜索策略。3在需求设计和详细设计的基础上,开发实现基于主题网络爬虫的科研信息管理系统。该系统引入主题网络爬虫技术,在爬取的同时对动态交互节点进行分析,并通过一个验证过程,将经过验证后与主题相关的信息存储在本地服务器,能够较好的实现科研信息的验证功能。