Web信息挖掘服务平台及数据备份技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：gzzmh12345

【摘要】

：

随着Internet的快速发展，互联网上的信息越来越丰富，面对爆炸性增长的信息，我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础

【作者】

：

何小春

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2012年期

【关键词】

：

信息挖掘系统架构信息服务数据容灾信息可视化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展，互联网上的信息越来越丰富，面对爆炸性增长的信息，我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础，为此我们的研究集中在以下几个方面：（1）Web信息挖掘服务平台的架构设计；（2）信息挖掘服务的功能点设计；（3）平台关键数据的容灾功能。基于上述3点，本文所做的工作描述如下：（1）提出了应用于Web信息挖掘服务平台的架构设计。本文基于J2EE轻量级框架设计的思想，使用软件工程中的MVC分层模型，对系统的各个模块进行划分，实现了以Solr为基础的高效Web信息挖掘系统。该系统为信息挖掘服务提供了一个良好的运行环境，在服务稳定性、响应速度和吞吐率方面都能很好地满足实际应用需求。同时，在二次开发中系统具有很高的可扩展性。（2）针对Web信息挖掘的实际需要，研究了基于元信息判别的网页自动分类方法，该算法充分利用网页的元信息，结合传统的分类算法，快速准确的对网页进行分类；提出了一种基于元信息加权的相似度计算方法，实现精确的相关网页推荐服务；采用基于相关词典的查询扩展技术，达到向用户进行信息推送的效果。有关实验表明，本文提出的方法在实现Web信息挖掘服务方面均达到了实际可用的效果。（3）研究典型的数据备份及恢复技术，针对实际需求，为了保证整个系统数据的完整性和可用性，本文使用了冗余备份技术来实现数据容灾，其中，采用基于增量异步复制技术实现全文索引库备份；采用基于日志回放技术实现热点数据备份和恢复。在Web信息挖掘服务平台上的实际运行，达到了不错的效果。（4）研究了基于JQuery组件实现信息的可视化功能，初步完成了前端分类效果的树状图展示、信息自动聚类的饼形图展示以及热点信息的折线图展示功能。

其他文献

面向Twitter信息的机构名消歧技术研究

实体的歧义是指同一个实体名称可以对应到多个概念上，为了自动分析文本或构建大规模知识库，精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展，互联网上的信息呈现

学位

机构名twitter消歧半监督特征增强

生物医学文本中蛋白质相互作用关系抽取关键技术研究

随着生物医学领域研究的飞速发展，生物医学文献的数目急剧增长，为了从生物医学文献中挖掘知识，蛋白质相互作用关系抽取成为了近年来的研究热点。本文的研究内容为蛋白质相互作用

学位

生物医学命名实体识别蛋白质相互作用关系抽取Sequence Memoizer依存句法分析广义期望准则

靶场实时系统数据库中间件的研究与实现

随着计算机和网络技术发展,靶场信息系统集成应用越来越普遍。信息系统集成主要解决底层数据异构问题。中间件是目前应用最广、最普遍的技术,目的是建立一个面向用户的透明化

学位

靶场信息化实时系统信息集成中间件技术

基于卷积神经网络的肺炎类型影像判别

近年来,医学图像处理已经成为计算机视觉领域的研究热点。肺炎影像类型判别目前主要依靠医生的经验,医院需要设置专门的科室和人员进行判断,这样费时费力,而且一些肺炎的CT影

学位

CT影像深度学习肺炎类型判别卷积神经网络

面向大规模网络模拟的拓扑抽象算法研究

伴随着科技的飞速发展，计算机网络在人们的日常生活中起着愈来愈重要的作用。如何研究网络，使其更好地服务于人类，已成为学术界的研究热点。网络模拟作为研究计算机网络的一种方

学位

大规模网络模拟网络拓扑抽象树形收缩区域收缩抽象系数

考虑多车间同种设备工序的综合调度算法研究

生产制造业中的调度方法,从根本上可以分成以下两类:一类是针对大批量相同品种产品的流水作业调度方法,另外一类是针对小批量不同品种产品的车间作业调度方法;主要采用纯加工调度或者纯装配调度。综合调度算法可以将产品加工和装配高度并行处理,避免了产品内部制造过程的割裂,其中多车间的综合调度算法更加符合现阶段的生产制造要求。对于单件复杂产品在设备资源对称的二车间综合调度的问题,目前的研究成果还未考虑动态实质路

学位

非对称多车间综合调度同种设备工序工序组调度均衡

基于AER的PCI Express总线故障注入工具研究

随着信息化的进程，计算机系统越来越深入地融入了国民经济的各个领域，人们对计算机系统的依赖程度与日俱增。尤其是军事、金融、电信、航空航天等国民经济关键领域，不仅需要计算

学位

故障注入PCIExpressAER容错机制

有序抖动图像的无损压缩算法研究

有序抖动半调图像已被广泛应用于连续色调图像的打印、印刷和显示中。因此研究针对其的高效压缩方法对这类图像的存储、记录和传输有着非常重要的应用价值和现实意义。本文介

学位

有序抖动图像矩形划分编码灰度转换哈夫曼编码

基于联合仿真故障注入关键技术分析与设计

目前，随着半导体工艺不断发展，电子系统也具有更高的集成度，而处理器的性能也有了较大的提高。高性能处理器低功耗、高性能的特点给处理器的可靠性带来了负面效应，带来了频发的硬

学位

故障注入联合仿真RTL模拟器

分布式分层虚拟网映射机制研究

如今互联网庞大的规模、复杂异质的管理体系使得诸如IPv6、安全路由、PIM-SM等技术难以大规模部署和应用，从而导致互联网在技术创新上面临僵化境地。T. Anderson等人提出的网

学位

分布式分层虚拟网映射机制拓扑结构链路带宽资源分配

Web信息挖掘服务平台及数据备份技术研究

与本文相关的学术论文