扩展语景图聚焦爬取器实验研究

来源 :中国工程物理研究院 | 被引量 : 0次 | 上传用户:svennis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的问世,改变了传统的信息发布组织方式,实现了全球范围内的信息共享。在Internet上,用户可以登陆网站,浏览网页,下载自己感兴趣的信息。但是,网上信息缺少统一的组织标准。信息的动态、高速增长使得人们难以及时有效地获得与特定专题有关的信息。 Internet网上提供信息最常见的方式为门户网站,例如Yahoo,网易等提供主题目录,但是这种主题分类过于宽泛,难以满足专家、学者的要求。用户查到的信息过于浅显,不能满足科研工作的需要。 搜索引擎的问世,解决了信息的定位问题,但是第一代搜索引擎例如AltaVista提供的是全文索引,排名只依据查询向量与文档向量的余弦相似度。这种基于局部信息的排名策略不能解决专题信息的收集,返回的结果太多太乱。 后来的搜索引擎Goolge利用自己的全局网页排名算法PageRank,较好的解决了结果的排名。但是它的目标主要是网上信息的覆盖率,与清新度产生矛盾。其网页排名值需要在三个月之后才能进入排名系统。因此,依靠通用搜索引擎也不易及时获得专题信息。 聚焦搜索系统弥补了通用搜索引擎的不足。它利用机器学习技术,根据用户要求,在网上自动收集用户指定的专题信息,响应快、信息质量高、自动化。尤其适合辅助解决科技人员在科研过程中收集查询特定领域技术信息的需要。 基于语景图的聚焦爬取器是近年提出的一种聚焦搜索爬取技术。它通过分析网页内容和链接,指导爬取器沿着迅速导向目标文档的路线前进,可以以较少的爬取无关网页为代价,迅速找到更多的目标文档。这一特点,对于专题信息收集,开展专题研究,具有极大的好处。 语景图聚焦爬取器信息利用率较低。而在实际工作中,可能需要一些次要的相关信息。为此,本文用随机爬取器建立语料库,用语料库和TF-IDF公式提取特征词条。利用种子文档中的链接建立扩展语景图的右层,使扩展后的语景图(ECG)能够收集种子文档所引用的文献之类的信息。设计实现的ECG爬取器原型利用自行开发的元搜索程序获取种子文档,利用ECG的各层文档训练各层NB分类器。利用分类器预测目前已经检索到的文档距离目标文档的大致距离。通过输入好起点和差起点网址进行了实验。 程序实验证明,和语景图(CG)爬取器相比,这种ECG爬取器不仅信息利用率高,而且对已爬取网址的查重在各层已下载队列中进行,因而ECG爬取器更适合于大规模爬取。ECG爬取器不仅采集到相关度高的网页,而且同时获得了较多的主题信息。而在CG背景下,这些网页可能被分到“其他”类而只起到维持连续爬取功能。实验还发现,CG或ECG的层数与后链一层的收获率存在
其他文献
本文首先回顾了网络管理技术的发展历程,介绍课题相关的研究概况,对SNMP网络管理的相关内容做了阐述,引入移动代理技术,对其概念、原理、特点和标准化等进行了详细介绍,并考察分析
互联网络的普遍应用使得人们希望能够以一种更加灵活的方式接入到Internet 中去,而不受时空的限制。传统IP 技术不能满足这种需求,而移动IP 技术正是适应这种需求而产生的。
数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持.目前数据挖掘逐渐发展成为一个多学科领域,涉及到
本文在分析了对面向对象软件进行测试所面临的问题和已存在的测试策略、方法的基础上,基于UML模型进行面向对象的软件测试,并介绍了一个作者参与实现的面向对象软件测试工具—
自从1998 年电力系统改革以来,我国电力系统逐渐进入一个开放的市场。在开放的电力市场中,企业必须更加深入地了解客户才能在市场竞争中获胜。企业深入了解客户的一个有效途径是数据挖掘。本文在深入研究了粗集理论之后提出了一种基于最高可信度的补齐算法(MCC),并用实例证明了其有效性。提出了一种新的基于信息熵的属性约简算法(IEAR),并用UCI 数据证明了该算法能有效减少属性约简后的属性个数。在分析了粗
随着当代计算机科学与技术的高速发展,计算机视觉及其相关领域的研究越来越热门。视频中的人体动作识别作为计算机视觉领域的一个重要分支,也越来越引起研究人员的重视。虽然现
GSM(Global System for Mobile Communication)是全球移动通信系统的简称。在GSM中,唯一不需建立端到端通道的业务就是短消息业务(SMS),在移动设备处于点与点通信状态下,还能
本文主要针对12导联的心电信号,提出了一个基于半监督判别分析(Semi-supervised DiscriminantAnalysis, SDA)的心电分类方法。多导联心电判别分析研究主要包括对心电信号预处理,
声源定位是许多领域里的一个基本问题。声源定位技术的研究一直是个研究热点,涉及到很多技术领域,如声学、信号检测、数字信号处理等,有着广阔的应用前景。目前,该技术在仿人智能
利用神经网络求解各种应用问题就是利用网络中神经元的协同并行计算能力将实际问题的优化解与神经网络的稳定状态相对应,把对实际问题的优化过程映射为神经网络系统的演化过程