论文部分内容阅读
网络数据根据呈现的结构被分为表层网页数据和深层网页数据,深层网络数据占网络数据的大部分。由于通用主题爬虫注重抽取表层网络数据,没有重视深层网页数据的抓取,查全率不高;另外通用爬虫返回的结果多而杂乱,且内容的准确率不高。因此,一个能抓取深层网络数据的,且返回的网页数据的准确度能达到用户需求的主题爬虫是当前研究课题的主要问题。本文针对定题领域,采用事件驱动模式和协议驱动模式,结合定题的主题网页特征,构建定题爬虫应用模型。本文主要工作有:1.研究了主题爬虫的相关理论和相关算法。探索事件驱动的触发方式,提高了传统主题爬虫的召回率;提出结合布尔模型和向量空间模型的方式来计算主题相关性,比较了使用布尔模型与使用布尔和向量空间模型结合的主题相关性预测的两种方式,分析表明后者在定题的相关性结果上更准确。2.提出了基于事件驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬全率。该模型用事件驱动方式抓取深层网页。在链接分析时使用布隆过滤器去重。在链接相关性预测时采用基于链接的BM字符串匹配算法结合主题链接特征条件,降低了链接匹配和网页下载的开销;使用基于向量空间模型的内容过滤算法,把匹配到的主题关键字射映到向量空间模型中对应的项,提高了链接预测的准确性。该模型以车型参数作为定题主题,实现了该领域信息的自动抽取和解析,提高了网页召回率。3.建立了基于协议驱动的定题领域的主题爬虫系统模型,该模型提高了主题爬虫爬准率。提出了在特定领域分词时采用正向最大字符串匹配法结合正向主题关键词特殊匹配法,该方法能切出更多的主题关键词,提高了抓取信息的准确性,并降低了误过滤主题相关的数据。在链接预测时结合了布尔模型和向量空间模型,提高了链接预测的准确性。该模型以旋转机械故障诊断知识作为主题,展开了对该主题爬虫的应用研究。实验结果表明,抓取结果网页集与主题的相关性高。