Web信息挖掘服务平台及数据备份技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gzzmh12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,互联网上的信息越来越丰富,面对爆炸性增长的信息,我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础,为此我们的研究集中在以下几个方面:(1)Web信息挖掘服务平台的架构设计;(2)信息挖掘服务的功能点设计;(3)平台关键数据的容灾功能。基于上述3点,本文所做的工作描述如下:(1)提出了应用于Web信息挖掘服务平台的架构设计。本文基于J2EE轻量级框架设计的思想,使用软件工程中的MVC分层模型,对系统的各个模块进行划分,实现了以Solr为基础的高效Web信息挖掘系统。该系统为信息挖掘服务提供了一个良好的运行环境,在服务稳定性、响应速度和吞吐率方面都能很好地满足实际应用需求。同时,在二次开发中系统具有很高的可扩展性。(2)针对Web信息挖掘的实际需要,研究了基于元信息判别的网页自动分类方法,该算法充分利用网页的元信息,结合传统的分类算法,快速准确的对网页进行分类;提出了一种基于元信息加权的相似度计算方法,实现精确的相关网页推荐服务;采用基于相关词典的查询扩展技术,达到向用户进行信息推送的效果。有关实验表明,本文提出的方法在实现Web信息挖掘服务方面均达到了实际可用的效果。(3)研究典型的数据备份及恢复技术,针对实际需求,为了保证整个系统数据的完整性和可用性,本文使用了冗余备份技术来实现数据容灾,其中,采用基于增量异步复制技术实现全文索引库备份;采用基于日志回放技术实现热点数据备份和恢复。在Web信息挖掘服务平台上的实际运行,达到了不错的效果。(4)研究了基于JQuery组件实现信息的可视化功能,初步完成了前端分类效果的树状图展示、信息自动聚类的饼形图展示以及热点信息的折线图展示功能。
其他文献
实体的歧义是指同一个实体名称可以对应到多个概念上,为了自动分析文本或构建大规模知识库,精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展,互联网上的信息呈现
随着生物医学领域研究的飞速发展,生物医学文献的数目急剧增长,为了从生物医学文献中挖掘知识,蛋白质相互作用关系抽取成为了近年来的研究热点。本文的研究内容为蛋白质相互作用
随着计算机和网络技术发展,靶场信息系统集成应用越来越普遍。信息系统集成主要解决底层数据异构问题。中间件是目前应用最广、最普遍的技术,目的是建立一个面向用户的透明化
近年来,医学图像处理已经成为计算机视觉领域的研究热点。肺炎影像类型判别目前主要依靠医生的经验,医院需要设置专门的科室和人员进行判断,这样费时费力,而且一些肺炎的CT影
伴随着科技的飞速发展,计算机网络在人们的日常生活中起着愈来愈重要的作用。如何研究网络,使其更好地服务于人类,已成为学术界的研究热点。网络模拟作为研究计算机网络的一种方
生产制造业中的调度方法,从根本上可以分成以下两类:一类是针对大批量相同品种产品的流水作业调度方法,另外一类是针对小批量不同品种产品的车间作业调度方法;主要采用纯加工调度或者纯装配调度。综合调度算法可以将产品加工和装配高度并行处理,避免了产品内部制造过程的割裂,其中多车间的综合调度算法更加符合现阶段的生产制造要求。对于单件复杂产品在设备资源对称的二车间综合调度的问题,目前的研究成果还未考虑动态实质路
随着信息化的进程,计算机系统越来越深入地融入了国民经济的各个领域,人们对计算机系统的依赖程度与日俱增。尤其是军事、金融、电信、航空航天等国民经济关键领域,不仅需要计算
有序抖动半调图像已被广泛应用于连续色调图像的打印、印刷和显示中。因此研究针对其的高效压缩方法对这类图像的存储、记录和传输有着非常重要的应用价值和现实意义。本文介
目前,随着半导体工艺不断发展,电子系统也具有更高的集成度,而处理器的性能也有了较大的提高。高性能处理器低功耗、高性能的特点给处理器的可靠性带来了负面效应,带来了频发的硬
如今互联网庞大的规模、复杂异质的管理体系使得诸如IPv6、安全路由、PIM-SM等技术难以大规模部署和应用,从而导致互联网在技术创新上面临僵化境地。T. Anderson等人提出的网