一种新的基于概念树的主题网络爬虫方法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:renmin9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,
其他文献
微软Office系列软件是应用广泛的办公自动化软件,对其(主要是Word和Excel)实现集成开发以实现自定义应用是当前一些应用系统开发所面临的迫切需求。本文就其集成开发技术的实现
网格技术应用于仿真领域是当前研究的热点之一。本文首先介绍网格计算中的关键技术和发展现状,并概述仿真网格的概念;然后结合仿真网格中资源和应用的特点,提出一个仿真网格
目的比较三孔与单孔胸腔镜肺叶切除术治疗肺癌的效果,为早期肺癌治疗提供依据。方法选取2014年9月至2015年8月我院收治的肺癌患者60例,随机分为单孔组(30例)和5-;;L组(30例),单孔组行
DPI检测技术是一种基于应用层的流量检测和控制技术,它能深入检查信息包流,准确地识别网络的业务类型,并通过特征库的匹配,有效识别P2P应用。DPI应用识别技术使网络运行变得
目的观察小剂量螺内酯联合常规治疗对慢性充血性心力衰竭的效果。方法选取我院2014年4月至2016年5月收治的200例慢性充血性心力衰竭患者,随机分为对照组和观察组,各100例。对
目的研究头颈部肿瘤患者的PS评分与放射性治疗的急性放射性损伤及近期疗效的相关性。方法选取2014年1月至2017年6月在我院进行首次放射性治疗的头颈部肿瘤患者60例,评估患者
当前,器材管理软件一般保留在文字描述的层面上,没有加入图片描述的功能。为了使对器材的管理具备直观、形象的效果,从而进一步提高管理效率,在对图片的存储方法进行研究分析基础
传统模式的校园网采用防火墙加上一定的访问控制策略来保证网络的安全,这种模式的网络只能抑制来自网络外部的威胁,而不能有效防治网络内部的安全隐患,因此提高网络内部的安
时序逻辑程序的形式化验证对提高程序的正确性具有重要意义。基于自动机的理论,用标签转移系统(S)表示程序的行为,用时序逻辑公式(F)描述程序的性质,构建相应的Büchi自动机,
结合从事系统管理员零失误的切身经历及实践经验,对全国计算机等级考试机试中所存在的安全隐患进行分析,从系统安全、数据安全、网络安全、用户及目录安全等方面,研究提出切