垂直搜索引擎的研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:aywjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网页信息量越来越大,采用通用搜索引擎搜索某一个方面的信息时覆盖率和准确率低,回馈的内容不够详细,噪音过多,维护庞大的网页索引库特别困难,在信息的采集和存储面临着严峻的挑战。由于通用搜索引擎存在以上的缺点垂直搜索引擎正好弥补了这些不足,它最大的特点是精,准,深。论文的主要工作如下:1.介绍了垂直搜索引擎,包括网络蜘蛛,索引器,检索器,用户接口的体系构架和主题页面分布特征、倒排序索引的建立和中文分词等基本技术。2.分析并研究了页面的解析和抓取、与主题相关性判定、网页收集和净化等基本工作原理,优化并且实现了一种页面消重算法。3.利用lucene开发包实现了一个小型垂直搜索引擎。用网络蜘蛛实现对各种类型的文档的解析,包括文本、html、Word、pdf等格式,通过解析文档来提取与主题有关的信息,同时实现了中文分词、索引器和检索器等模块。4.论文对内容重复的网页消重算法进行了改进和实现,它是对传统基于特征串的页面消重算法的一种改进。由于转载导致网址不同而网页内容相同,这样会有大量的重复页面出现,论文页面消重算法改进算法利用了主码和辅码来实现,特征码能够较好反映网页内容和方便计算。主码表示网页文本的段落结构信息,辅码用来标识网页文本的内容信息,这样就能够利用网页文本的结构和内容信息消除重复网页,在很大程度上提高了消重的效率。
其他文献
矿产资源定量预测是地质学和数学、信息技术、计算机技术相结合的产物,它建立矿产资源与地质条件之间的定量关系,从而使矿产资源预测更加客观、更加准确,效率也大幅提升,同时
随着人工智能的快速发展,伴随其而来的相关技术与应用应运而生,以人工智能为基础的产业蓬勃发展,其中图像识别与目标跟踪技术在各个领域应用广泛,特别是在安全监控与增强现实
网络管理涉及的问题很多,管理的范围很广,随着网络规模的扩大和网络复杂性的提高,网络管理的难度也日益增加。网络管理业务是有一定流程的,尽管不同的功能域可能存在不同的流
随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹配法,为了减少自动抽
随着互联网的快速发展,网络上关于某一主题的新闻报道呈爆炸式增长,大量的事件信息存在冗余、不完整、不一致、有歧义现象。如何能快速准确地获得某一主题详细而完整的信息是
随着网格技术的不断发展及网格应用研究的深入,网格环境下业务流程越来越复杂。随着业务流程规模因跨领域跨组织而增大,导致业务流程的高复杂性,就会由于状态空间爆炸而给网
在Ad hoc网络应用中,存在的主要问题是安全问题和资源消耗问题。如何在路由过程中保证安全,并节省有限的资源和通信带宽是目前需要解决的主要问题。本文针对Ad hoc网络路由的
随着大数据时代的到来,传统的技术已经无法满足日益增长的存储需求,分布式存储技术应运而生。HDFS是Apache开发的云计算平台Hadoop的分布式存储系统,可以运行在大规模廉价的
随着互联网的快速发展,计算机软件的运行环境逐渐开放化,软件动态演化已经成为软件工程领域的研究热点之一。面向方面编程(AOP)是一种新兴的编程技术,其关注点分离技术能较好
随着互联网的各种应用在生活中的普及度逐渐提高,全球数据量呈指数级别的增长。根据互联网数据中心的调查显示,早在2011年全球数据量已突破2万亿GB。IBM副总裁在2016年的闪存