主题Web信息采集与分析技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wolantu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,搜索引擎逐渐成为用户在Web上获取信息的主要工具。传统的通用搜索引擎利用一个Crawler程序面向整个Web进行信息采集,它的缺点是采集无针对性、页面失效率高、不能满足特定专业人群的需要。针对这种情况,需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。本文设计了一个主题搜索引擎,并对现有的主题Web信息采集与分析技术进行了深入研究;按照评价链接价值所采用方法的不同,对Crawler的爬行搜索策略进行了分类,分析和比较了各类搜索策略的特点及优缺点。通过对几种常见的Web社区结构的分析,指出现有的基于局部信息的主题Web信息采集技术存在一些问题:技术层面上的“局部最优”与“主题漂移”之间,以及采集结果上查全率与查准率之间存在着不协调的现象。因此,本文决定利用基于概率选择的,具有通用性、高适应性和全局性的遗传算法来解决这一问题。论文所做的工作主要有:①根据传统的通用搜索引擎与主题搜索引擎之间目的和实现手段上的差异,提出了一个主题搜索引擎,并介绍了系统每一部分的功能和其实现方法。②研究了信息采集与分析技术、信息检索技术,其中主要研究了主题Web信息采集与分析技术。通过对比和分析,发现现有技术的优点和不足之处。③研究了遗传算法的概念、特点、实现方法和其数学原理,并提出将其运用在主题Web信息采集领域里,改进信息采集系统的性能。④通过深入分析遗传算法与主题Web信息采集技术的共性与不同之处,论述了在信息采集系统中应用遗传算法的可行性和需要注意的问题。提出了算法的框架、实现步骤;对其实现的功能进行了深入分析和实验验证,指出该算法具有较好的性能,能够较好地解决目前主题Web信息采集领域内面临的问题。
其他文献
当人类步入新世纪,科技成为经济增长的主要动力。科技奖励是促进科技进步的一种重要手段,是科技工作的重要组成部分。科技奖励是推动科技发展和人类文明进步的重要措施。我国
自从现代建筑国际会议(CIAM)发表了关于城市规划的理论与方法的文件以来,几乎已有45年,那文件就是《雅典宪章》。最近几十年来出现了许多新的情况要求对宪章进行一次修订,几
鲁东地块指沂沭断裂带以东的山东部分。本文从地体的观点 ,在介绍鲁东地块研究简史的基础上 ,指出其在中生代以前与鲁西地块有着相同的沉积历史 ,尤其胶南隆起上在地史时期曾
在国际货物买卖中,货物损失的风险是一个非常重要的问题,尽管目前我国立法和有关国际公约、惯例对这一问题作出了相应的规定,但是,由于有关的立法和惯例之间的差别大,有些基本概念
声部确立的过程是一个既易也难得过程,对于声部特征明显的声部我们很容易判断,而对于声音条件特殊的声部确立往往需要经历一段时间的训练甚至更长时间才能够真正确立,在这一
随着全国范围内的高校合并的浪潮,各省的中等职业教育改革也步入了一个新的里程碑,高职高专院校逐渐成为我国培养高级专业技术人才的主阵地。但由于受机制和管理体制方面因素的
目的本文随机抽取腰椎间盘突出病人146例,其中手术组76人,非手术组70人,通过对其生活质量等的观察、分析,探索影响腰椎间盘突出病人生活质量的躯体和心理因素。对象方法对象
针对目标遮挡、运动模糊和复杂背景等问题,提出一种可见光和红外视频融合的有效卷积神经网络的相关目标跟踪算法,以提高跟踪性能。两层的卷积神经网络通过使用卷积滤波器,提
广元女儿节是20世纪80年代由四川广元政府根据武皇文化活动定名的。这一节日所包含的各种元素暗示出女性文化史的多重特征。"乌龙感孕"神话传说透射出天子有母无父的母系氏族