论文部分内容阅读
随着Internet的快速发展,互联网上的信息越来越丰富,面对爆炸性增长的信息,我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础,为此我们的研究集中在以下几个方面:(1)Web信息挖掘服务平台的架构设计;(2)信息挖掘服务的功能点设计;(3)平台关键数据的容灾功能。基于上述3点,本文所做的工作描述如下:(1)提出了应用于Web信息挖掘服务平台的架构设计。本文基于J2EE轻量级框架设计的思想,使用软件工程中的MVC分层模型,对系统的各个模块进行划分,实现了以Solr为基础的高效Web信息挖掘系统。该系统为信息挖掘服务提供了一个良好的运行环境,在服务稳定性、响应速度和吞吐率方面都能很好地满足实际应用需求。同时,在二次开发中系统具有很高的可扩展性。(2)针对Web信息挖掘的实际需要,研究了基于元信息判别的网页自动分类方法,该算法充分利用网页的元信息,结合传统的分类算法,快速准确的对网页进行分类;提出了一种基于元信息加权的相似度计算方法,实现精确的相关网页推荐服务;采用基于相关词典的查询扩展技术,达到向用户进行信息推送的效果。有关实验表明,本文提出的方法在实现Web信息挖掘服务方面均达到了实际可用的效果。(3)研究典型的数据备份及恢复技术,针对实际需求,为了保证整个系统数据的完整性和可用性,本文使用了冗余备份技术来实现数据容灾,其中,采用基于增量异步复制技术实现全文索引库备份;采用基于日志回放技术实现热点数据备份和恢复。在Web信息挖掘服务平台上的实际运行,达到了不错的效果。(4)研究了基于JQuery组件实现信息的可视化功能,初步完成了前端分类效果的树状图展示、信息自动聚类的饼形图展示以及热点信息的折线图展示功能。