基于Nutch的图情博客搜索引擎的设计与实现

来源 :郑州大学 | 被引量 : 0次 | 上传用户:lyxdaisy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0理念和技术的兴起,全球互联网用户享受到了丰富多样的交互性信息服务,博客正是这种交互性信息服务的典型代表。在这种时代背景下,图书情报学领域的学生、研究人员等纷纷开设博客进行信息交流。然而,图情博客分散、博文质量参差不齐的现状给界内人士的使用带来了不便,虽然Google博客搜索、百度博客搜索等相关的主题搜索引擎已经解决了一些问题,但是仍旧不能满足图情界用户的需求。本文就是针对这一问题尝试构建图情博客搜索引擎,以满足图情用户的需求。本文首先对搜索引擎相关技术和图情博客进行分析,其次引入Nutch这一开源搜索引擎并基于Nutch制定了图情博客搜索引擎的设计方案,再次依据该设计方案开发出相应的主题搜索引擎,最后以实验的方法对该主题搜索引擎的性能进行评估。本文各章节的主要内容如下:1绪论。本章介绍了论文的选题背景、选题意义、国内外研究现状、所采用的研究方法和创新之处。2搜索引擎相关技术及图情博客分析。本章首先分析了搜索引擎、主题搜索引擎的运行原理,指出二者的主要区别在于信息采集模块和网页内容解析模块两部分,主题搜索引擎改进了网络爬虫模块和并在网页内容解析模块增加了主题词库进行信息过滤。其次从博客站点结构、博客页面内容、博客之间链接结构三方面对图情博客进行分析,以增加对图情博客的全面认识。3 Nutch简介及Nutch系统的运行环境配置与运行。本章首先介绍了开源搜索引擎Nutch的基本情况和框架结构,对Nutch有个初步的认识。然后配置Nutch系统的运行环境并详细阐释其运行流程,对Nutch的运行原理和详细结构有进一步的认识。4基于Nutch的图情博客搜索引擎的设计。本章依据软件工程的思想,首先分析搜索引擎系统要实现的目标、要解决的问题以及可行性,然后通过用例图(Use Case Diagram)和序列图(Sequence Diagram)对系统的用户需求进行阐述,最后给出了系统的总体设计方案和详细设计方案。5基于Nutch的图情博客搜索引擎的核心模块实现。本章对详细设计方案中的三个核心模块进行实现。首先是借助图书情报学的信息检索理论和实践对主题资源发现模块进行实现,其次是通过软件分析对爬虫模块的采集策略进行实现,最后是根据用户需求对检索模块进行改进。6实验测试分析与结论。本章首先设定了一系列参数并依据这些参数进行了六轮实验测试,然后对测试结果进行了分析。最后,笔者总结了图情博客搜索引擎的特点及不足之处,并对以后的改进工作做出了展望。
其他文献
随着互联网和数据库技术的发展,各高校师生对图书馆购买的全文电子资源需求不断提高。图书馆立足于服务全校师生的角度,应该根据师生科研需求的变动,积极引进有影响力的、高
本文结合成安渝高速公路成洛互通C匝道排水管渠改造,通过方案比选分析了排洪渠的改造思路,确定了最佳改造方案,并通过理论计算分析了改造思路的经济合理性。
如今,中小企业在全球经济一体化的形势下在国民经济中的地位愈来愈高。伴随全球经济一体化进程的加快,中小企业为了提升竞争实力,必须采用正确的经营思想、使用合理的经营战
通过变频交流电沉积自组装法制得钯金合金纳米线修饰电极,并利用其所具有的良好化学稳定性及电催化性能,研究了该修饰电极对过氧化氢的传感性能。钯金合金纳米线修饰电极对过
公共图书馆是我国公共文化服务体系的重要组成部分,也是国家和地区文化建设战略的重要发展对象。但是,单个公共图书馆面临资源短缺、资源匮乏等困境,难以承担保护文化信息资
简述档案编研工作的内容、意义以及高校档案编研工作的重要性,客观地分析高校档案编研工作的现状及其成因,根据网络环境的特点提出新时期档案编研工作的对策。
在网络信息环境下,加入或组建图书馆采购联盟已成为多数图书馆采购电子资源的主要途径。联盟的组织方式指的是图书馆为了适应内外环境和用户信息需求的变化依据共同的宗旨和
为克服被控对象参数变化导致控制精度降低的问题,研究了一种BP神经网络模型预测控制算法。借助最小二乘递推算法在线预测系统模型参数,利用BP神经网络在线预测PID参数以控制被
文中分析了当前河流水质和生态环境等方面存在的主要问题,合理提出了区域生态治理的主要原则和治理措施;并分析了生态治理后对河流水质、区域经济发展的重要作用。
中国梦思想理论融入思想政治教育具有丰富的时代价值,对坚定理想信念、凝聚社会共识、引领社会意识形态具有深远的历史意义。中国梦思想理论教育具有夯实现代思想政治教育的