企业级搜索引擎关键技术的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:akuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业搜索引擎为用户提供互联网和企业内部与特定组织或特定主题相关联的网络信息检索服务。随着网络信息量爆炸式的增长,企业搜索引擎需要提高采集数据质量,并保障系统的处理规模。本文通过改进搜索策略来提高采集数据的质量,此外,通过研究和实现并行检索系统的性能优化技术,来在大数据量和高并发度的情况下保证快速的用户查询响应。   本文在采集系统添加了主题采集模块,采用了基于网页主题重要性的搜索策略。即根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中。同时,根据网页的主题重要性排序,来指导主题爬行器的爬行方向。最后,通过实验结果表明,基于网页主题重要性的排序算法TopicRank比PageRank、TSPR(Topical-Sensitive PageRank)对主题爬行更有指导意义。   本文还设计并实现了一套并行检索系统,该系统由Broker、Querier和Indexer节点共同组成。这些节点相互配合完成由Web Server提交的用户查询请求,Broker只负责状态管理和响应查询的Querier节点选择;Querier负责查询请求的分发和结果的聚合;Indexer负责数据的索引和检索。通过并行计算,提高了系统的性能和处理的数据量。   本文对检索系统的性能进行了以下几方面的测试:系统的可扩展性、系统的吞吐量、系统处理的数据量、Querier个数的影响等。实验表明,相对于木棉原并行检索系统,本文改进后的系统降低了用户查询的响应时间,提高了系统的吞吐量,增加了系统处理的数据量。同时,Querier节点的设计减轻了Broker节点的负担,消除了系统瓶颈,增强了系统的可扩展性。本文还对并行架构的开销进行了探讨,并且通过测试证明缓存模块对于提高并行检索系统的平均性能比较有效。
其他文献
移动互联网是互联网的发展趋势之一,它将移动通信技术融合到互联网中。实现移动互联网的最大难题之一就是移动性支持,衡量移动性支持优劣的重要指标之一是切换性能,即保证移动互
随着经济的发展与科技的进步,作为企业“第三利润源泉”的物流已成为国民经济的重要产业。配送是物流中一个非常重要的环节,而如何优化车辆的配送路径则是物流决策者所需要重点
网格计算经过多年的研究和发展,由于其大规模,分布式和动态等特性,通常会涉及到异构资源整合的问题,所产生的安全问题要比一般意义上的网络安全问题的覆盖面更广,解决方案也更加复
随着微电子技术的飞速发展,数字处理器的运算速度越来越快,集成度越来越高,功能更加强大,而成本也随着大规模的生产而下降,数字化、智能化控制己成为当今自动化设备发展的方向。本
由于基点选取的随意性,基于Voronoi-Delaunay剖分的多分辨率表示生成算法不能很好地保持原始模型的几何特征,为捕捉模型的形状需要较大的基网格。此外该方法还存在如下两个问题
软件性能测试,作为质量控制的一个环节,在软件开发的过程当中向来是一个不能忽视的话题。目前随着网络的迅猛发展,基于网络的应用系统也对性能测试提出了新的要求:在这些基于网络
近年来,计算机和网络技术的发展呈加速态势,但各种应用的核心——数据,仍以不同形式存储在不同的系统中,分而不聚,聚而不合,呈分布异构状态。随着应用需求的不断增加,越来越
作为电子商务推荐系统中使用最为广泛的技术,协同过滤推荐技术通过将日常生活中的“口碑效应”应用到自动推荐流程,为系统用户提供个性化、高质量的推荐服务,并在实际应用中被证
论文的主要研究内容是将指纹fuzzy vault算法应用于安全指纹身份认证的网络身份认证系统,解决由于指纹的唯一性而带来的指纹不可撤销导致的不安全因素,实现可撤销的指纹模板,并
监控系统广泛应用于各个领域,如银行、电力、水电、教育、公安、大型公共设施、大型仓库、电信和交通等,对于保障工业生产、人民生活与社会安全具有重要意义。当前,随着科学技术