智能信息采集搜索策略研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wmr8232123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,如何在Web海量信息中尽可能多地获取与用户兴趣相关的页面是搜索引擎领域研究的热点之一。本文通过改善网络蜘蛛的自适应性来提高搜索效率,对基于主题的网络蜘蛛的搜索策略进行较为深入的研究。 本文首先介绍了现阶段网络蜘蛛的研究进展,在分析和比较现有基于主题的网络蜘蛛搜索策略的优缺点的基础上,探讨了如何提高网络蜘蛛的自适应性和预测链接价值的准确性,以此来提高搜索的效率。 为了提高网络蜘蛛的自适应性,本文提出一种基于综合价值的搜索算法,通过结合链接的立即价值和未来价值,分析这两者相应的变化趋势来判断待搜索页面集与主题的相关性,依此动态调整这两种价值的权值关系,产生适合实际搜索情况的最优搜索策略。实验结果表明,新算法在整体性能上明显优于采用单一链接评价方法的网络蜘蛛搜索算法。 为了提高链接价值预测的准确性,本文针对传统的PageRank算法存在的主题漂移现象,提出基于主题分块的PageRank算法,利用信息抽取的方法对网页建立DOM层次树,按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并根据已访问的链接对块进行相关性反馈。实验结果表明新的算法能较好地改进搜索结果的精确度。 本文还提出一种基于遗传算法的网络蜘蛛搜索策略,将遗传算法引入网络蜘蛛搜索策略,将父页面,链接文本,链接的URL以及兄弟链接等信息的不同组合作为不同的基因序列,通过交叉、变异操作使web信息的组合方式可以随着web资源的实际情况而动态变动,得到符合web情况的较优搜索策略。实验结果表明,新的算法具有较高的搜索效率。 最后,本文利用提出的算法和相关技术,实现了一个可采用多种搜索策略的计算机相关论文专业搜索引擎网络蜘蛛系统原型。
其他文献
无缝钢管是一种非常重要的工业材料,广泛应用于石油、化工、锅炉、电站、船舶、机械制造、汽车、航空、航天、能源、地质、建筑及军工等各个领域。合同组批是无缝钢管生产过
本文在前人研究的基础上,结合国内外的最新发展动态,通过大量的资料采集、整理和分析,结合具体实例对XML数据库技术的存储和查询领域及其应用进行了分析和研究。本文中还用实
  本文主要研究在对话语音中检测目标说话人,并定位目标说话人语音的问题。目标说话人检测,是指在一段多个人连续说话的对话语音中判断目标说话人是否出现;目标说话人定位,是指
用于训练机场塔台管制员的塔台模拟机系统是一个实时仿真系统,由于其涉及的对象数量大,行为动作复杂,实时技术较高,这就要求软件体系结构的维护性好、可扩充性好。  本文在简要
  现有的大多数协同工作系统在实现时往往没有充分的考虑用户的工作特点,因而不可避免存在一些缺陷,难以真正意义上的满足用户需求。主要体现在以下几个方面:1.参与协同的成员
  在经济全球化的全新环境下,供应链的敏捷性和可重构能力是支持动态联盟优化运行的重要使能技术,开展敏捷供应链的研究对促进企业异构平台间的信息集成,进而实现企业协同工作
论文分析了分布式入侵检测系统的体系结构和组件之间信息共享方式的演变,对CIDF(公共入侵检测框架)中的组件通信机制、IDXP(入侵检测交换协议)和现有分布式入侵检测系统的组
扩展巴科斯范式(ABNF,AugmentedBNF)是Internet工程任务组(IETF,InternetEngineeringTaskForce)在RFC2234中给出的一个字符串模式匹配的文法定义,它被广泛应用于各种网络协议的
随着计算机网络的发展,当越来越多的公司及个人成为INTERNET用户后,计算机网络安全作为一个无法回避的问题呈现在人们面前,用户传统上采用防火墙作为安全第一道防线,而随着攻
微博客作为一种新的舆论载体和传播途径,在网络舆情信息发起和传播中起着越来越重要的作用。与传统的博客、论坛和商品评论等载体相比,微博具有无障碍、短消息和实时性等新特