基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:thskaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年随着互联网信息量的快速增长,如何准确、快速、高效地从互联网上获取信息的问题变得越来越突出,面向主题的聚焦爬虫技术应运而生。现有的面向主题的聚焦爬虫系统均不同程度地存在领域或主题依赖,即主题受限的不足。为了节约资源、提高建立的快速性、增加适应的广泛性,研究一种面向多领域的、具有主题可移植性的聚焦爬虫系统是互联网应用快速发展的需要。本文在分析总结了现有主题聚焦爬虫技术的基础上,提出了常量与变量主题聚焦爬虫的概念。针对变量主题聚焦爬虫中主题特征的动态生成以及网页抓取准确性下降这两个核心问题,提出了一个基于领域关键词自动扩展的变量主题Hopfield聚焦爬虫参考模型,并就其中的关键技术进行了研究。首先,提出了一个改进的网页结构化表示模型DocView-(?),在量化表示中,它考虑了节点影响因子对节点权值的重要影响,以及节点类型对节点权值的不同影响,使得网页的量化表示更加准确,基于此,提出网页关键词自动提取改进算法HTTE-a成功地增强了算法抗主题噪声的能力,在性能上优于现有算法HTTE-b,为实现领域关键词自动扩展,提供关键的技术基础;接着,提出了一个面向Hopfield Web理论模型的综合结构预测相关性分析模型,成功克服了现有模型的计算不稳定问题;最后,提出了一个基于Hopfield人工神经网络的URL搜索算法HNcrawl,它在搜索URL的同时,通过神经元的相关性传播、增强与弱化,结合神经元筛选与剪技策略,不断清晰Web社区的主题边界。本文还给出了变量主题聚焦爬虫系统的一个性能评测标准,并实现了变量主题聚焦爬虫参考模型。实验证明,系统的准确率、效率等主要指标均优于经典的聚焦爬虫,达到了应用的基本要求,本文提出的参考模型是可行的、关键技术是有效的。
其他文献
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍应用所提出的迫切需要解决的重要课题。
数据发布为数据交换和数据共享提供了便利,数据发布过程中的隐私泄漏问题也日益突出,隐私保护己成为数据库安全研究的一个新热点。K-匿名化是微数据发布环境下保护数据隐私的一
近年来,数字水印技术得到了飞快的发展,目前抗几何攻击成为水印研究的热点和难点问题,据此本文以静态图像为研究对象,提出了两种抵抗几何攻击的数字水印算法。此外,本文还提
随着当今社会信息化进程的加快以及互联网的飞速发展,自然语言处理技术被广泛应用于机器翻译、信息检索和人机交互等信息处理领域。经过多年发展,自然语言处理逐渐由基于规则的
情感在人类的感知、决策等过程中扮演着重要角色。长期以来情感智能研究只存在于心理学和认知科学领域,近年来随着人工智能的发展,情感智能与计算机技术结合产生了情感计算这
Web服务是当前SOA实现的主流技术,越来越多的企业需要在SOA体系结构和Web服务技术框架下将企业已有的应用以Web服务的形式发布,并整合业务伙伴的Web服务以实现功能聚合、提供
随着监控视频数据的日益增长,人工分析视频的方式耗费人力的同时也增加了安全保障的成本,越来越不能满足实际需要。此时,智能化的视频分析方法显得尤为重要,异常检测作为其中的一
随着网络数字资源的日益丰富和网络环境对人们存取信息方式的改变,数字文档唾手可得,文档复制变得越来越容易。近年来,学术剽窃现象屡见报端,互联网上日益增多的重复网页降低
随着计算机科学技术的快速发展,软件的应用领域逐步推广,软件规模和成本逐渐增大。因此,软件学界引入工程学的管理方法,来解决软件开发的问题,软件工程应运而生。经过多年的
信息安全实验系统是高校信息安全及相关专业教学的重要建设内容。本文针对目前实验系统稳定性差、部署维护困难、不易扩充等问题,基于插件思想设计并部分实现了一个扩展性强、