结合文本密度的语义聚焦爬虫方法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:asdfghjkd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对聚焦爬虫网页核心内容提取算法准确性偏低以及相似度计算模型语义信息考虑不充分造成的爬取准确度和效率偏低的问题,提出结合文本密度的语义聚焦爬虫方法。引入核心内容提取算法,使用标题结合LCS算法定位核心内容文本的起始和终止位置,提取网页核心内容。引入基于Word2vec的主题相关度算法计算核心内容的主题相关度,改进PageRank算法计算链接主题重要度。结合主题相关度和主题重要度计算链接优先级。此外,为提高聚焦爬虫的全局搜索性能,结合主题词使用搜索引擎扩展链接集。与通用爬虫和多种聚焦爬虫相比,该方法爬虫爬取
其他文献
2015年初在全面深化改革的关键时刻,《国务院关于机关事业单位工作人员养老保险制度改革的决定》正式发布,实现了机关事业单位(国际上称为公共部门)与企业之间养老保险制度的
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
在传统会计系统所产生的财务会计报告所提供的会计信息可以满足某些报告需求者某些方面的需要。知识经济的网络化、信息化迫切需要重构传统会计,以满足现代企业管理的需要。本
目的探讨Valpar职业评估训练系统(VCWS)对非痴呆型血管性认知功能障碍(VCIND)的临床效果。方法选择2015年1月到2016年7月在该院进行治疗的VCIND患者70例作为研究对象,按随机数字
在我国经济增速放缓经济下行压力增大的背景下,中小企业能够释放市场活力、激发创新氛围,成为推动经济高质量发展的重要力量。然而,融资难、融资贵问题一直是制约中小企业发
目的分析当前自媒体应用对护士造成的职业暴露现状及应对策略。方法计算机检索国内外护士自媒体所致的职业暴露的相关文献,根据文献结果进行分析和总结。结果影响护士自媒体
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
所谓激励,就是激发和鼓励。激励原理就是运用各种手段激发人的动机,发挥其内在潜力,使其工作行为朝着期望的目标积极努力。激励过程如下:
在目前的网络安全技术每件下,防火墙通过防止DoS和DDoS攻击策略以及堡垒主机、包过滤路由器、应用型网关、双宿主机等技术,实行可行而有效的安全防护。
岁月匆匆,转眼又是一年。岁月是什么?是我们挥汗如雨奔波如梭的一个个平凡而真实的日子,是一种永恒又是一抹瞬间,就如同一只飞鸟在空中滑翔的痕迹,一朵花从绽放到凋零的过程,