主题爬虫关键技术研究及应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:kupanda09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着web信息资源的快速增长,通用搜索引擎存在无法检索所有页面的问题,也不能满足人们日益增长的个性化服务需要,因此各类适应特定人群需要的主题搜索引擎应运而生。为保证主题搜索引擎返回信息的准确性,开展对承担主题相关信息采集任务的主题爬虫系统研究具有重要意义。主题爬虫的基本工作原理是按照预先确定的主题,分析超链接和所抓取的网页内容,获取下一个要爬行的URL,尽可能保证多爬行与主题相关的网页。在主题爬虫系统研究中,主要涉及主题基准模型、网页分析方法和网页搜索策略等方面的内容。主题基准模型是爬虫判别所抓取网页主题是否相关的依据,其研究重点是如何建立合适的主题基准模型以及主题基准模型和待判别网页的映射关系,以提高对所抓取网页的主题性判别;网页分析方法主要分析所抓取网页的内容和超链接,研究如何对网页内容进行正确提取,以获取网页所表示的主题,避免网页主题提取粒度不够影响对该网页的主题相关度判别;网页搜索策略主要解决待访问URL的次序问题,提高主题爬虫覆盖度。目前的研究主要集中在通过预测URL的主题相关来决定URL访问次序,但这样又容易使主题爬虫陷入局部寻优的状态。基于上述分析,本文主要从主题基准模型、网页分析方法和网页搜索策略三方面展开研究,设计和构建相应的主题爬虫系统框架,并以信用主题为应用,实现主题爬虫原型系统,并对相应的实验结果进行分析比较。本文主要研究工作包括以下几个方面:1、对主题爬虫系统的结构开展研究,从提高主题爬虫抓取质量的角度出发,将主题基准模型、网页分析方法和网页搜索策略三个重要组成部分进行分析整合,设计了主题爬虫系统的框架。2、从主题基准模型建立方法和待判别网页主题抽取上展开研究,通过统一主题基准模型和待判别网页的主题关键词的权重设置,来提高爬虫对网页的主题性判别。3、针对常用的基于网页结构内容块提取方法中提取正文粒度不够细问题,本文采用基于TagWindow标签窗口进行网页正文提取,以适应于正文篇幅长和正文中链接比较少的网页类型。4、为提高主题相关资源发现率,针对现有主题爬虫存在无法访问链接不可达资源,无法跨越主题团之间的主题不相关链接等问题,本文对自适应遗传算法网页搜索策略展开研究,以缓和上述隧道问题。5、以信用主题为应用实现主题爬虫原型系统,并对相应的实验结果进行分析比较。
其他文献
三维地质建模是运用计算机在三维环境下进行地质分析的技术。传统的地质信息模拟与表达只是将三维空间信息在某一平面上进行呈现,存在空间信息损失与失真、制图过程繁杂和更
随着社会的发展和技术的进步,人们越来越意识到海洋在人类社会发展进程中的重要作用。海洋为大类提供广阔的发展空间和资源优势,对于海洋进行一定深度和广度上的开发成为世界
句法分析是自然语言处理的主要任务之一。本论文的目的和任务是对给定的自然语言句子,根据给定的语法自动识别其句法结构,并分析句子所包含的句法单位以及这些句法单位之间的
针对应用中常见的时滞系统以及系统中最常见的一类传感器和执行器故障本文研究含测量时滞系统的故障诊断问题。首先综述了故障诊断和控制的国内外研究现状,介绍了时滞系统的故障诊断制成果。然后利用最优理论、对偶原理、线性矩阵不等式及状态观测等技术,提出了在系统中含有不时滞情况下的故障诊断和容错控制方法。本文的研究内容概括如下。1.对带有故障的线性系统模型进行了描述,并对本文所研究的一类已知动态特性未知初始状态
随着信息技术在劳动力市场和社会保障管理方面的广泛应用,各地劳动保障系统中积累了大量的劳动力就业、失业、求职和招工的数据。这些数据是大量的、不完全的,但同时又是非常
随着互联网技术的高速发展和大数据时代的来临,数据呈爆炸式增长,如何对这些数据进行智能分析和自动处理,高效地挖掘出潜在的有使用价值和社会竞争力的信息就显得愈发重要。
在当今这个信息时代,随着计算机技术突飞猛进的发展,各种智能化机器也走进了人们生产生活的各个方面,致使人们渴望与机器之间的交流能像人与人之间的交流一样自然流畅。这种
随着软件的广泛应用,特别是软件在尖端领域的应用,软件的可靠性成为一个非常重要的问题。软件的可靠性主要取决于软件开发的方法与过程,同时,又取决于软件系统的测试与验证。UML
由于Internet上数据具有异质性和多样性的特征,导致同一个领域中不同网站的结构也有很大差别,因此,用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变得日益困难。目
随着经济全球化步伐不断加快,金融领域洗钱活动日益猖獗,并对国家经济稳定造成巨大危害,目前引起国际社会的广泛关注。洗钱势必助长走私、贩毒、贪污腐败、恐怖活动等,严重威胁全