面向定题领域的事件驱动和协议驱动的主题爬虫应用研究

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:yeximajor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据根据呈现的结构被分为表层网页数据和深层网页数据,深层网络数据占网络数据的大部分。由于通用主题爬虫注重抽取表层网络数据,没有重视深层网页数据的抓取,查全率不高;另外通用爬虫返回的结果多而杂乱,且内容的准确率不高。因此,一个能抓取深层网络数据的,且返回的网页数据的准确度能达到用户需求的主题爬虫是当前研究课题的主要问题。本文针对定题领域,采用事件驱动模式和协议驱动模式,结合定题的主题网页特征,构建定题爬虫应用模型。本文主要工作有:1.研究了主题爬虫的相关理论和相关算法。探索事件驱动的触发方式,提高了传统主题爬虫的召回率;提出结合布尔模型和向量空间模型的方式来计算主题相关性,比较了使用布尔模型与使用布尔和向量空间模型结合的主题相关性预测的两种方式,分析表明后者在定题的相关性结果上更准确。2.提出了基于事件驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬全率。该模型用事件驱动方式抓取深层网页。在链接分析时使用布隆过滤器去重。在链接相关性预测时采用基于链接的BM字符串匹配算法结合主题链接特征条件,降低了链接匹配和网页下载的开销;使用基于向量空间模型的内容过滤算法,把匹配到的主题关键字射映到向量空间模型中对应的项,提高了链接预测的准确性。该模型以车型参数作为定题主题,实现了该领域信息的自动抽取和解析,提高了网页召回率。3.建立了基于协议驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬准率。提出了在特定领域分词时采用正向最大字符串匹配法结合正向主题关键词特殊匹配法,该方法能切出更多的主题关键词,提高了抓取信息的准确性,并降低了误过滤主题相关的数据。在链接预测时结合了布尔模型和向量空间模型,提高了链接预测的准确性。该模型以旋转机械故障诊断知识作为主题,展开了对该主题爬虫的应用研究。实验结果表明,抓取结果网页集与主题的相关性高。
其他文献
宝钢是我国规模最大、世界第三大的钢铁企业。电力作为钢铁生产中必不可少的能源介质,对于宝钢这个特大型制造企业来说,其安全稳定运行对钢铁生产意义重大。宝钢供配电系统容量
随着人类工程技术水平的不断提高新老混凝土加固工程得到迅速发展,但同时由于新老混凝土粘结面的复杂性,实际工程中新老混凝土的应用还存在着很多问题。一般研究新老混凝土加固
近年来干旱区绿洲的经济发展带动绿洲人口增长,土地承载压力也随之增加;对土地资源的盲目开发导致耕地质量下降,绿洲边缘区荒漠化现象严重,土地利用结构进一步恶化。为保证耕地保
本文以大口径火炮身管为研究对象,依据疲劳断裂理论,以ABAQUS和ALOF等软件为平台,综合分析、计算了炮管热结构耦合场,包辛格效应的自紧残余应力场;研究了静载作用下厚壁圆筒应力强
本论文以钙钛矿LaCoO3为切入点,分别考察了不同方法制备钙钛矿型LaCoO3纳米管的效果及不同的反应条件对合成LaCoO3纳米管的影响,并对获得的纳米管进行了初步的表征和性能评价,最
随着世界范围内企业社会责任运动的发展和我国经济社会发展中所面临的资源、环境、劳动关系等问题的不断显现,近年来我国政府、学者和有关研究机构纷纷呼吁企业要更多地承担社
摘要:呼吸是歌唱的动力,正确的呼吸与良好的呼吸支持力是完成一首声乐作品的根本条件;而歌词是音乐旋律表达思想感情的载体,也就是语音基础。只有呼吸与歌词的有机结合才能准确的
中国农村土地面积占整个国土面积的83.5%,村镇人口占全国人口总数的53.4%。根据相关资料统计,在我国建筑能源的总消耗约占整个社会能源消耗的27.6%。随着我国城市化进程不断加
随着经济的发展和消费选择的增多,今天的消费者面临越来越多的享乐品和实用品选择。这些选择的结果,对消费者福利、商家收益和社会健康发展都有着重要的影响。因此,对影响消费者
电子商务的飞速发展将我们带入了网络经济时代,但同时也带来了“信息过载”问题,推荐技术就是针对这个问题而提出的。但由于推荐系统固有的开放性和对用户信息的敏感性,使它很容