主题搜索引擎的关键技术研究与实现

来源 :武汉理工大学 | 被引量 : 25次 | 上传用户:greathuhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上信息量的极速增长,Web上出现了大量的重复信息和垃圾信息,用户感觉很难快速找到自己真正需要的信息,通用搜索引擎面临着信息采集规模、更新速度和专业化需求等多方面的挑战。面对这些挑战,针对特定主题和个性化信息检索的主题搜索引擎(vertical search engine or topical search engine)应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点,本论文的研究就是以这一热点和难点技术而展开的。本文首先对通用搜索引擎的组成部分作了简单介绍,并细述了其工作原理。进而对主题搜索引擎的一些关键技术如主题网络爬虫、信息抽取、文本分类、网页排序等进行了详细的阐述。在探讨几种文本分类算法中,本文对贝叶斯分类算法进行了改进,鉴于网页中的一些HTML标记中的关键词能更好的反映一个页面的主题,在改进的算法中对这些词赋予了较大的权重系数,并通过实验与数据分析本文改进的贝叶斯分类算法在分类准确度上有了较大的提高。本文重点讨论了主题网络爬虫的搜索策略,分别论述了基于内容和基于链接的搜索策略。考虑到web页面上存在的主题孤岛问题,提出了一种新的基于内容和链接分析的URL搜索算法,可以使网络蜘蛛穿越隧道爬取更多的相关主题页面来解决主题孤岛问题,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后对本文提出的URL搜索算法进行了实验分析,以ODP分类目录索引作为实验环境,对广度优先搜索策略、最好优先搜索策略和本文提出的基于内容和链接分析的URL搜索策略进行了测评比较,结果表明本文提出的URL搜索算法在目标召回率标准方面得到了提高,使主题搜索引擎在保证查准率的基础上返回更多主题相关的页面。
其他文献
随着Internet技术的发展,基于B/S结构的大型Web应用越来越多,这些应用几乎都是以.Net和Java为开发平台。目前关于J2EE的设计模式,人们已经提出了很多,但是对于.Net的设计模式,研究
学位
在嵌入式软件开发中,调试是一个重要的环节,调试在整个开发过程中占有着举足轻重的地位,一个高效、强大的调试系统可以大大减少整个系统的开发时间,因此调试工具是衡量软件开发环
近年来,校园网的规模随着计算机网络技术的快速发展而日益扩大。人们在日常生活中越来越依赖网络,保证网络服务畅通稳定就显得更加重要。而当前网络的复杂性和异构性越来越高
随着信息技术的飞速发展,个性化的产品、个性化的服务逐渐成为电子商务的发展趋势之一。本文以文献推荐服务系统为实例,对个性化电子商务应用系统中用户建模中涉及到的技术进
本文通过深入研究高速数据采集技术原理和实现方法,提出了基于VHDL的4路并行数据采集架构,利用低速、低成本的A/D转换器件实现了400MSa/s高速数据采集的目标,研发的示波卡具有
随着互联网和信息化建设的迅猛发展,三层交换机的应用已遍及骨干网、城域骨干网和汇聚层等,所以运营商对三层交换机的可靠性也提出了更高的要求。目前主要采用热插拔、热切换
多序列比对是生物信息学中至关重要的一步。传统的序列比对的方法是NP难问题。目前的算法都是以牺牲某种程度的精度为代价,达到可实用的速度。由于现有的蛋白质多序列比对算
感应电机由于其结构简单、可靠性高、价格低廉、便于维护而在我国的工农业生产领域得以了广泛的应用。随着我国工业系统的飞速发展,感应电机的单机容量不断增加,所以驱动的负载越来越复杂。电机故障不仅对电机本身造成损坏,严重时还会使电机突然停机,造成生产崩溃,产生巨大的经济损失。电机处于异常运行或故障状态时,必然会引起一些电气量(电压、电流)的变化,这些物理量的变化是检测和判断电机故障的重要信息。由于定子电流
大幅面扫描仪是一种具有扫描幅面宽、分辨率高、图像质量高等特点的专业扫描仪,广泛应用在各种专业图像领域。它的特点决定了其有较高的开发难度。本文在分析各种大幅面扫描仪
随着我国信息化应用的逐步深入,越来越多领域内的主要业务都依赖于信息系统得以实施。信息系统风险评估及以其为基础和前提的信息系统安全工程越来越受到人们的重视,这在很大