基于维基百科和网页分块的主题爬行策略

来源 :计算机应用 | 被引量 : 13次 | 上传用户:cngvr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。
其他文献
素有“七山一水二分田”之称的宜昌县,地处鄂西山区,1986年建立乡镇财政时,乡财政收入仅1114万元,他们正视山区财政经济结构脆弱的现状,靠山治山,依山兴财,闯出了一条富民兴
从枝城市近几年来实施综合财政预算改革的实践来看,综合财政预算的实施,对缓解该市预算内资金紧张的压力,指导预算外资金的合理流向,增强财政宏观调控能力等方面,确实起到了
在自认证公钥签名中,验证签名有效性的同时,也验证了公钥的真实性。与已有的基于证书和基于身份的两种签名相比,自认证公钥体制具有通信代价低、计算量少的优点。现有的使用双线性对的自认证公钥签名的文献数量少,效率也有待进一步提高。为此使用双线性对,构造了一种高效的自认证公钥签名方案。分析表明,新方案不仅安全,而且其效率也优于已有文献。
为了充分保障手机通讯录信息的安全性,并充分利用智能手机原有资源,提出一种基于Android平台的手机安全通讯录系统.该系统将原有联系人、通话记录和短信息三大功能合为一体,有效利用Android原生数据库资源,使用Java多线程技术实现对原生数据库信息的加密解密处理、手机丢失后的智能化GPS定位、通讯录等手机存储信息的智能化转储与删除.实验结果表明,该手机安全通讯录系统能充分保证手机用户的信息安全.
近年来,预算外资金规模不断扩大,由于管理没有跟上,由此带来国家财力分散、社会分配不公、资金使用浪费现象突出等一系列问题,进而使整个国家消费基金增长过快,财政预算内支
春天,随着气温的回升,盆花将陆续出室。回到大自然中。在天气稍暖后,容易出现忽视必要的防护管理,很可能使某些盆花受到伤害,甚至出现冬季正常,而春天却夭折的后果。因此,春季盆花护
针对环形区域能更好地表达像素空间分布的特点,将其引入到Gabor小波纹理特征中,提出了一种基于兴趣点环形区域颜色和纹理特征的图像检索算法。首先采用自适应平滑滤波器对图像进行滤波处理,消除噪声的影响并利用快速鲁棒特征(SURF)算子检测兴趣点;然后计算兴趣点周围局部区域内环形颜色直方图及纹理特征,将其作为图像的综合特征;最后根据图像综合特征相似度,输出相似图像。实验结果表明,该算法使平均检索准确率提
基于密度泛函理论结合非平衡格林函数方法对5个Al原子构成的链耦合在两半无限Au(100)电极之间形成三明治结构的纳米结点的电导进行了第一性原理计算.结果得到电导随两极距离的变
移民工作天下第一难,它涉及各种利益、关系、结构的再调整、再分配、再重组,牵一发而动全局,如果不处理妥当,极易引起干群关系对立,诱发群体性事件.周云和在《搏浪金沙江》中
针对多峰函数优化中的全局及局部寻优问题,提出了一种结合免疫克隆算子的量子遗传算法,给出了实现流程。该方法针对量子遗传算法在复杂连续函数优化中收敛速度慢、易陷入局部极值等缺点,采用免疫克隆操作及交叉策略提高抗体成熟力及亲和性,增强抗体群分布的多样性及稳定性,有效克服了量子遗传算法容易陷于局部最优及计算缓慢的不足。通过对多峰函数的全局寻优仿真实验,并与基本遗传算法、量子遗传算法的计算结果进行比较,结果