针对爬虫的域名链接过滤算法

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:nmhnhjcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。
其他文献
7月30日,中共中央政治局召开会议,会议分析研究当前经济形势,部署下半年经济工作。中共中央总书记习近平主持会议。会议指出,当前经济形势仍然复杂严峻,不稳定性不确定性较大
遗传算法(genetic algorithms,GAs)因其能适应任意限制条件和目标问题,被普遍应用在各种调度优化问题中,但是针对于特定的软件项目管理问题和环境,没有系统的研究和分析.通过对
长期来看,新冠病毒疫情的爆发将加快中国保险业转型变革,提升民众风险意识,提高保险在中国居民资产配置中的比重。短期内,新冠病毒的冲击将影响亚洲保费的增长,并对2020年全
目的探讨柔性管理在普外科护理中的应用效果。方法对我院在2011年10月至2012年10月收治的94例普外科患者随机分为47例实验组和47例对照组,对照组的患者采用常规的护理手段进
历时10个多月的2006中国“俄罗斯年”活动于2006年11月9日在北京落下帷幕。中俄两国总理共同出席在人民大会堂举行的盛大闭幕式并致辞。作为“俄罗斯年”闭幕式上中俄两国所
期刊
首次采用自组织特征映射(SOM)网络结合BP神经网络方法建立了汽轮机功率模型,利用SOM网络的聚类功能,解决了传统样本提取方法正交性和完备性差的局限性.在合肥电厂125 MW机组
燃煤CO2等温室气体的大量排放是造成全球气候变暖的一个重要原因。阐述了我国CO2的捧放状况,概括了减少燃煤CO2排放的3种途径:提高能源效率、改革传统的煤炭燃烧利用方式、烟气
AVSP(Automatic Verifier of Secrurity Protocols)是基于串空间模型(Strand Space Model),并结合使用定理证明和模型检测技术开发出来的密码安全协议自动验证工具.AVSP使用
目的对中西医结合治疗慢性盆腔炎的临床效果进行分析。方法选取2016年2月至2017年8月期间在我院参与慢性盆腔炎治疗的患者共150名,将患者随机划分为两组用于最终数据的有效对