基于Nutch的面向IT科技博客的垂直搜索引擎的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网日新月异的发展使得网络上存储的资源越来越多,网页文本、音乐、图片、视频等形式各异的资源充斥其中,难以快速精准的从中找到自己想要的信息资源。这种需求催生了垂直搜索引擎的快速发展。本文首先研究了垂直搜索引擎发展的历史和趋势,之后详细的研究了垂直搜索引擎中涉及到的各种技术,设计并实现了一个面向博客领域的个性化垂直搜索引擎。本文的主要工作主要包括以下几个方面:(1)分析并对比了通用网络爬虫和垂直网络爬虫的系统架构和基本原理,对主题判定算法进行了研究,归纳了用户的搜索行为对垂直搜索引擎产生的反馈作用,研究并归纳了常见加密算法的性能和特征;(2)设计并实现了一个基于Nutch的分布式主题爬虫模块。首先详细分析了 Nutch的架构和工作原理,提出了一种能够将通用爬虫Nutch改造成垂直网络爬虫的方案。然后基于朴素贝叶斯文本分类算法实现了贝叶斯文本分类插件,在贝叶斯文本分类插件工作过程中加入了 URL主题判定模块,加深了 Nutch的爬行深度,并利用Nutch的插件机制将其引入到Nutch的工作流中,将通用爬虫Nutch改造成为垂直网络爬虫;(3)设计并实现了一个基于Solr的个性化用户查询模块。首先研究了用户搜索行为信息对用户搜索可能造成的影响,设计了一个基于Solr的个性化用户查询模块,该模块能够将用户的搜索行为收集入库,利用向量空间模型算法从中分析出用户的兴趣模型,并根据兴趣模型对用户的当前查询做出查询扩展,将Solr改造成为个性化查询模块;(4)在设计个性化用户查询模块时,考虑到对用户隐私的保护,采用安全套接层协议SSL对用户行为信息进行传输,然后利用数据库加解密模块对用户的行为信息进行AES加密,并将加密后的数据存储到数据库中,保护了用户的隐私安全;(5)设计并实现了基于Nutch的面向IT科技博客领域的垂直搜索引擎,并对搜索引擎进行了相关实验。实验表明,本文提出的设计方案是有效的,虽然为了实现主题过滤功能,爬虫的爬取效率有所降低,但是相较于原有的Nutch系统和通用搜索引擎百度,查准率得到了较大的提升。
其他文献
提起国产纺机.有一个在N个场合被津津乐道地举了N次的例子是这样的:如果在十年前想投资一套年产6万吨化纤聚酯设备,则要完全依赖进口,手里没有10亿人民币免谈;而现在,6万吨已
目的观察可必特与沐舒坦联合雾化吸入对慢性阻塞性肺疾病急性加重期患者的临床疗效。方法将98例慢性阻塞性肺疾病急性加重期的住院患者随机分为2组,除常规给予抗生素、氨茶碱
贯彻十六大十六届三中全会和中央经济工作会议精神.在新世纪纺织行业要走出一条科技含量高经济效益好资源消耗低、环境污染少、人力资源得到充分发挥的新型工业化道路。走新型
期刊
目的探讨高危儿脑损伤(CCD)早期综合康复治疗的效果。方法对50例脑损伤的患儿进行中西医结合康复治疗(包括功能训练、感觉综合训练、中医推拿、物理和药物治疗等)。结果治愈35例(
50%单氰胺主要作为植物生长调节剂和除草剂使用。可有效抑制植物体内过氧化氢酶的活性,,加速植物体内氧化磷酸戊糖(PPP)循环,从而加速植物体内基础物质的生成,起到调节生长的作用
目的进一步探讨腹腔镜胆囊切除术并发症的原因和预防措施。方法回顾分析自2003—08—2008—12我科561例胆囊疾病的病人行腹腔镜胆囊切除术的资料。结果561例中558例成功施行
钾是苹果果实生长发育中必不可少的大量元素之一,与果实品质密切相关,研究钾对果实品质及糖、酸代谢的关系具有重要意义。本试验以5-6年生盆栽“嘎拉”苹果/M26自根苹果苗为
本文主要尝试对《共产党宣言》(以下但凡提到该著作皆简称《宣言》)中的社会发展思想进行系统的归纳和总结。全文分为五大部分:绪论部分作为本文的开篇,主要介绍了本文的选题
了解原始卵泡的形成、激活,特别是原始卵泡向初级卵泡转变的调控机制对卵子库的建立和辅助生殖技术的发展有着重要意义。简要综述与哺乳动物原始卵泡的形成、激活及向初级卵泡
目的探讨动脉粥样硬化(AS)时血脂异常对单核细胞(MC)粘附分子表达及调脂干预对其产生的影响。方法选择冠心病不稳定性心绞痛(UA)患者30例,并经血脂康调脂治疗3个月后随访,同时选取正