基于Hadoop框架的电力业务深度搜索引擎的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fngdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网信息急剧增长的今天,搜索引擎已经成为人们从互联网上检索信息的重要工具。但是,随着行业细化不断深入,不同专业领域的搜索需求千差万别,通用的搜索引擎很难满足所有领域的搜索需求,因此一种在传统搜索引擎上成长的新的搜索工具应运而生——主题搜索引擎。相比较通用搜索引擎来说,主题搜索引擎对行业信息具有更好的覆盖率和更高的准确性,能够完善的覆盖本专业的相关信息。同时,海量的数据信息也使得分布式计算成为必然,虽然造成系统更大的开销和设计的复杂性,但是它带来的高效信息采集和检索效率也是不容置疑的。其中,Hadoop框架是目前比较流行的一个分布式计算框架。  本文结合现有的主题搜索引擎技术,对主题搜索引擎技术做了进一步的深入研究,设计并实现了一个基于Hadoop框架的面向电力行业的主题搜索引擎。本系统主要由抓取模块、索引模块和检索模块构成。  抓取模块即主题爬虫的实现部分,主要对传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算;又针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略。  索引模块对Lucene全文检索系统中索引模块进行了改进,提出了一种面向电网领域的基于扩展词典的混合索引技术。同时,对索引性能从索引压缩和内存缓冲两个方面进行了优化,并最终在Lucene上进行了实现。  最后,主要阐述了检索模块中设计基于Lucene的查询器的关键技术。
其他文献
Diffie-Hellman(DH)密钥协商协议是一种安全协议,它可以让双方在完全没有对方任何预先信息的条件下通过不安全信道创建公共密钥,该密钥可在后续通讯中作为对称密钥加密通讯内容
WSN (Web Service Notification)是由OASIS组织制定的一套用于发布/订阅系统的标准,定义了通过使用基于主题的发布/订阅模式进行通知的Web服务规范。订阅者向消息生产者发送订
随着Web服务与面向服务的体系架构(Service-Oriented Architecture,SOA)的发展,越来越多的服务提供商致力于开发、提供Web服务,并在服务注册时提供服务定义关键字对服务进行
企业规模的不断变大,市场竞争的不断增强,信息技术的不断发展推动多媒体客户联络中心飞速发展。客户联络中心已经成为企业提高竞争力,为客户提供高效率,高品质服务必不可少武
近年来,随着互联网、云计算等技术的发展,人类社会所产生的数据正以前所未有的速度在不断的增长和累积,我们已经步入大数据时代。研究大数据的意义在于从数据中发掘重要信息,为人
在机器人技术发展的过程中,机器人示教编程技术是衡量一个工业机器人应用的灵活性和智能化程度的重要指标。会话式编程作为一种编程方式,就是在图形界面上通过提示信息的方式来
智能硬件和交互技术的快速发展为图像和视频的观看带来极大的便利。例如人们可以在各种各样不同尺寸屏幕的显示终端上观看图像/视频,也可以通过交互技术任意设定图像/视频的目
无线传感器技术在国防军事、环境监测、电力系统等领域体现出许多的优越性,有着广泛的应用和发展前景。由于无线传感器网络的自组织性、网络拓扑结构和网络环境动态变化、节
随着网络信息的爆炸式发展而导致信息过载和搜索引擎系统本身的被动性搜索过程,推荐引擎系统受到了越来越多的关注和研究。推荐系统当前主要的研究方向是冷启动问题,矩阵稀疏
近些年来,随着Web2.0的蓬勃发展,以图像为代表的多媒体数据呈现爆炸式增长。为了满足用户大量的搜索需求,建立快速有效的搜索系统成为了一个亟待解决的问题。现阶段,大多数搜索引