基于改进HITS算法及位置信息的关键网页信息抽取方法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yzq660511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会信息化程度的不断提高,越来越多的数据已通过互联网进行分享。在这个庞大的数据集中,如何获取所需的重要信息是一个难题。这其中涉及两个核心问题:关键网页的获取和网页内结构化信息的抽取。现有的搜索引擎是一种针对互联网的信息检索工具,但其通用性决定了它必须平等地处理每一个网页,因此并不适用于一些特定领域的信息获取。网络上有相当一部分文档是无结构或半结构的,而传统的信息抽取领域一般基于结构化的文本文档。因此,如何从网页中抽取出其中重要的结构化信息,成了近年来研究的热点之一。这就推动了一个研究方向——网页信息抽取。本文研究了关键网页的获取及其结构化信息的提取方法。首先,论文分析了传统链接分析方法PageRank和HITS的优缺点,并选择HITS算法作为获取关键网页的基本方法。在实验中发现:传统的HITS算法具有忽视新页面和易受“垃圾链接”(Spam Link)影响的缺点,并不适用于实际应用,特别是新闻类的时效型网页。前人的研究已经针对“垃圾链接”提出了一种过滤方案,因此论文在其基础上加入了时间因素等改进措施,进一步完善了HITS算法,提出了TimeWeightedHits算法。经实验证明,TimeWeightedHits算法能有效地过滤无用网页,并能筛选出时效性较高的关键网页。其次,为了从这些网页中提取重要的结构化信息,本文提出了一种利用HTML标签显示位置信息的网页信息抽取方法。通过模拟浏览器的渲染工作来获取HTML文档上每个HTML标签在浏览器屏幕上的显示位置,以便提取这些标签的位置特征。并将TimeWeightedHits算法获取的部分关键网页作为训练样本集,由支持向量机算法生成分类模型,以此筛选出在测试网页重要信息区域内的HTML标签。经实验证明,与另一个基于统计的抽取方法相比,提高了准确率。并且由于采用了半自动化的训练样本标注方法,减少了训练时人工介入的工作量。
其他文献
垂直磁记录的出现加速了硬盘存储密度的增长,为了保证磁头读取信息的正确性和稳定性,磁头与盘片之间的距离越来越小,已经达到几个纳米的飞行高度。在这种超低飞高的状态下,滑
过去的二十年中,计算机的运用需求不断增加,数字图像处理正被越来越广泛地运用于人们的生活。CT成像、气象卫星图像、安检设备等应用已逐渐被人们所熟知。 图像的特征研究是
智能视频监控作为模式识别领域的重要分支,人们对它的研究与应用越来越广泛,其主要研究的是视频中的运动物体,对运动目标进行检测、识别和跟踪。而人作为视频中最受关注的运动目
实时任务在实际应用中通常需要以独占方式同步访问共享资源,但是由于资源的独占性导致高优先权任务运行时往往被低优先权任务阻塞,从而产生优先权反转,难以满足任务的实时性
XML已经成为网络上数据和信息交换的事实标准。模式匹配在许多领域中扮演着重要的角色,如模式集成、数据仓库、电子商务、数据集成等。但是由于模式表达形式的多样性、模式类
桌面虚拟化技术可为计算机桌面的大规模快速分发和管理、按需满足不同用户的应用请求提供强大的支持,而其后台核心则是基于虚拟机的大规模虚拟集群。随着这项技术在各种大型
伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索引擎应运而生。通常评价搜索引擎的性能的标
性能管理是战术无线网络管理系统的重要组成部分。它对战术无线网络的运行状况、服务质量和资源利用起监测、管理和控制作用,直接影响网络正常、有效的运行。 论文在分析战
随着信息时代的到来,海量信息产生,信息爆炸增长,企业用户对信息系统的高可用性、业务的连续性要求越来越高。集群在当前数据密集度高、事务分布式程度高或系统可用性要求苛
伴随着IT硬件的丰富化、多样化,小设备的计算能力进一步增强,诸如手机、MP-x等,功能越来越强大,而目前这些设备的操作系统功能单一,不同的软件在不同的系统可能互不兼容,其软