基于网页的站内信息采集技术的研究与实现

来源 :内蒙古大学学报(自然科学版) | 被引量 : 0次 | 上传用户:leegimars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率.
其他文献
《普通高中数学课程标准》提出的六大核心素养一直是数学教育领域的核心话题。《义务教育阶段数学课程标准(2011年版)》提出包括“推理能力”在内的十个核心概念。逻辑推理作
目的:探讨WD认知损害特征与中医证型的相关性,为中医临床辨证施治提供理论依据。方法:根据认知功能检查-中文版(TheAddenbrooke’sCognitiveExamination-III,ACE-Ⅲ)量表评分
近几年来,在我国政策的指引下,无论从粮食增产方面还是农民增收方面来看,我国农村的整个发展形势都比较良好,但同时也存在着一些亟待解决的问题:一是我国农业用地较少,农民数
<正> 俄语基本调型一般归纳为七种(?).但是在苏联各种听能材料中,往往会出现某些逸出七种调型范围的语调,它们似乎既可归入这一基本调型,又可归入另一调型;或者既不能归入这
我国是全球水资源最贫乏的国家之一,节水是一项持久的战略方针,2013-2015年浙江省完成了一批县级试点节水型社会建设,文章对完成嘉兴市南湖区节水型社会建设后产生的效果作分
音乐教育专业"合唱与指挥"课程是我国高校音乐教育专业及艺术院校音乐教育专业的必修课程,对此门课程的教学改革需要在教学手段上进行实践性的转变,旨在强化教师的教学能力,
地下深层石油管道所受到的腐蚀是多种因素综合作用的结果,腐蚀严重,防护困难,损失巨大。通过导入纳米技术对航天工业所使用的高分子聚合物进行复合改性的研究,开发出适用于地
房屋建筑施工过程中,最基础也是最重点的内容就是要保证施工质量。本文针对房屋建筑施工中质量管理现存问题进行分析,并且结合实际情况,提出有针对性的解决措施,为房屋建筑施
相对于直接的现实交易而言,网购所涉及的主体还有网络交易平台、支付服务的提供者和货物派送的快递公司等,买家与卖家之间在本质上形成的仍是买卖合同关系,但由于网络的虚拟
文章指出,被称为“山民艺术家”的沈从文笔下的民俗事象已不是单纯的民俗介绍,而是一种文艺民俗。这种文艺民俗源于民俗,可是作家对民俗事象作了审美化、艺术化的处理。对此,作者