基于改进HITS算法及位置信息的关键网页信息抽取方法

来源 :复旦大学 | 被引量 : 0次 | 上传用户：yzq660511

【摘要】

：

随着人类社会信息化程度的不断提高,越来越多的数据已通过互联网进行分享。在这个庞大的数据集中,如何获取所需的重要信息是一个难题。这其中涉及两个核心问题:关键网页的获

【作者】

：

陈翰生

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2009年期

【关键词】

：

链接分析网页信息提取支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类社会信息化程度的不断提高,越来越多的数据已通过互联网进行分享。在这个庞大的数据集中,如何获取所需的重要信息是一个难题。这其中涉及两个核心问题:关键网页的获取和网页内结构化信息的抽取。现有的搜索引擎是一种针对互联网的信息检索工具,但其通用性决定了它必须平等地处理每一个网页,因此并不适用于一些特定领域的信息获取。网络上有相当一部分文档是无结构或半结构的,而传统的信息抽取领域一般基于结构化的文本文档。因此,如何从网页中抽取出其中重要的结构化信息,成了近年来研究的热点之一。这就推动了一个研究方向——网页信息抽取。本文研究了关键网页的获取及其结构化信息的提取方法。首先,论文分析了传统链接分析方法PageRank和HITS的优缺点,并选择HITS算法作为获取关键网页的基本方法。在实验中发现:传统的HITS算法具有忽视新页面和易受“垃圾链接”(Spam Link)影响的缺点,并不适用于实际应用,特别是新闻类的时效型网页。前人的研究已经针对“垃圾链接”提出了一种过滤方案,因此论文在其基础上加入了时间因素等改进措施,进一步完善了HITS算法,提出了TimeWeightedHits算法。经实验证明,TimeWeightedHits算法能有效地过滤无用网页,并能筛选出时效性较高的关键网页。其次,为了从这些网页中提取重要的结构化信息,本文提出了一种利用HTML标签显示位置信息的网页信息抽取方法。通过模拟浏览器的渲染工作来获取HTML文档上每个HTML标签在浏览器屏幕上的显示位置,以便提取这些标签的位置特征。并将TimeWeightedHits算法获取的部分关键网页作为训练样本集,由支持向量机算法生成分类模型,以此筛选出在测试网页重要信息区域内的HTML标签。经实验证明,与另一个基于统计的抽取方法相比,提高了准确率。并且由于采用了半自动化的训练样本标注方法,减少了训练时人工介入的工作量。

其他文献

超低飞高硬盘磁头运行的仿真研究

垂直磁记录的出现加速了硬盘存储密度的增长,为了保证磁头读取信息的正确性和稳定性,磁头与盘片之间的距离越来越小,已经达到几个纳米的飞行高度。在这种超低飞高的状态下,滑

学位

飞高头盘系统空气作用力直接模拟蒙特卡洛方法表面调节系数

轮廓曲线的关键点检测研究

过去的二十年中，计算机的运用需求不断增加，数字图像处理正被越来越广泛地运用于人们的生活。CT成像、气象卫星图像、安检设备等应用已逐渐被人们所熟知。图像的特征研究是

学位

轮廓曲线关键点检测多边形逼近圆弧拟合

基于自适应前景的行人检测跟踪系统设计

智能视频监控作为模式识别领域的重要分支，人们对它的研究与应用越来越广泛，其主要研究的是视频中的运动物体，对运动目标进行检测、识别和跟踪。而人作为视频中最受关注的运动目

学位

智能视频监控行人检测跟踪系统功能模块自适应前景提取算法

基于任务同步及节能的实时调度算法研究

实时任务在实际应用中通常需要以独占方式同步访问共享资源,但是由于资源的独占性导致高优先权任务运行时往往被低优先权任务阻塞,从而产生优先权反转,难以满足任务的实时性

学位

实时系统动态调度任务同步节能

XML模式匹配算法及其在异构信息集成中的应用

XML已经成为网络上数据和信息交换的事实标准。模式匹配在许多领域中扮演着重要的角色,如模式集成、数据仓库、电子商务、数据集成等。但是由于模式表达形式的多样性、模式类

学位

模式匹配XML模式相似度映射信息集成

虚拟用户环境中资源动态管理机制研究

桌面虚拟化技术可为计算机桌面的大规模快速分发和管理、按需满足不同用户的应用请求提供强大的支持,而其后台核心则是基于虚拟机的大规模虚拟集群。随着这项技术在各种大型

学位

桌面虚拟化调度策略多维资源负载平衡排队模型

基于网页相似度的搜索算法改进的研究

伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索引擎应运而生。通常评价搜索引擎的性能的标

学位

搜索引擎PageRank算法相似度算法

战术无线网络性能管理技术研究

性能管理是战术无线网络管理系统的重要组成部分。它对战术无线网络的运行状况、服务质量和资源利用起监测、管理和控制作用，直接影响网络正常、有效的运行。论文在分析战

学位

SNMP战术无线网络串口通信网络性能管理服务质量移动终端节点delphi编程

集群环境下数据副本管理和失效检测技术的研究

随着信息时代的到来,海量信息产生,信息爆炸增长,企业用户对信息系统的高可用性、业务的连续性要求越来越高。集群在当前数据密集度高、事务分布式程度高或系统可用性要求苛

学位

海量信息存储集群容灾元胞自动机容灾评价方法

轻量级虚拟机的研究

伴随着IT硬件的丰富化、多样化,小设备的计算能力进一步增强,诸如手机、MP-x等,功能越来越强大,而目前这些设备的操作系统功能单一,不同的软件在不同的系统可能互不兼容,其软

学位

轻量级虚拟机虚拟内存管理多进程管理微内核文件系统

基于改进HITS算法及位置信息的关键网页信息抽取方法

与本文相关的学术论文