基于文本内容的超链接分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pgwork2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文针对目前互联网应用技术中的网页分类以及相关问题的研究,根据网页结构的特点,研究了基于文本内容的超链接分类.即通过对文本内容和超链接的分析,对与网页文本相关联的超链接进行分类.首先,该文对网络信息现状以及链接结构技术进行了分析.在此基础上研究了基于文本内容的超链接分类.然后,该文选择一个特定领域,即IT新产品类文档进行了研究.先分析了IT新产品类文档的特点及与其相关的超链接的特点.接着根据上述特点,对超链接进行了类别定义,将与IT新产品类文档相关的超链接分成九个类别.并借鉴传统的文本分类方法,设计了两种分类方法,即首次出现算法和加权算法.最后,该文详细介绍了整个分类系统的实现过程,应用上述两种分类方法对部分真实网页中的超链接按照定义的九个类别进行了分类研究,取得了较好的结果.研究结果表明,基于文本内容的超链接分类这一研究方向是可行的.为了得到更加准确的结果,该文进行了深入的分析研究.即不仅仅对超链接进行分析还对超链接所指向的网页文档进行分析.但研究结果表明,分类结果的准确性并没有得到提高.该文对此进行了分析.基于文本内容的超链接分类与传统的文本分类是不同的.传统的分类对象是电子文档,而该文提出的是对网络中特有的超链接信息进行的分类研究.对其它网络信息技术的研究有着积极的作用.可以为信息抽取、话题追踪等互联网信息应用研究作更好的准备,有着较好的应用前景.
其他文献
环境气象特种预报的产生和发展是随着气象服务需求的增加应运而生的,预报方法远未定型.以紫外线指数和空气污染指数为例,结合各种算法进行研究,取长补短,使得气象特种预报的
XML是一种用于表示复杂结构数据的方法,主要关注数据的内容和结构,可以使数据的内容和显示分离,XML被广泛的应用于各种应用领域,为了应用领域之内和之间的数据和信息交换和表示,必
随着信息技术以及通信技术的不断发展,近年来,数字电视广播技术已经进入实用化阶段,中国有多家电视台已经开始建立自己的数字电视系统.数字电视条件接收系统CAS(Conditional
制造企业是国民经济的根本,对国家的经济实力和综合国力提升有重大影响.以ERP为代表的先进管理软件和管理方法可以大大提高企业的竞争力.供应管理系统是ERP系统中非常重要的
随着网络技术的快速发展,网络提供的服务也趋向于多样化,电子商务、网络流媒体等业务的出现使用户对网络的性能要求也越来越高,越来越多的网站遭受到网络拥塞的困扰.为了提高
总结、分析与比较了基于地震道时窗属性特征、分形维以及人工神经网络在地震记录初至拾取方面应用的方法原理.通过三类初至拾取方法在不同地区、不同信噪比地震记录上的应用
本文首先针对航天器的实时运行,提出了一种随机视场观测星选取及有效验证星图模拟的方法.航天器实时运行,实现自主导航,识别算法是关键.为了给匹配识别算法提供尽可能好的星
随着计算机网络、计算机通讯等技术的发展,Agent以及MAS的研究成为分布式人工智能研究的一个热点.特别是现实中的系统往往异常复杂、庞大并呈现出分布式特性,单Agent因为个体
命题逻辑可满足性(SAT)问题和有限论域一阶逻辑模型搜索(FOLMS)问题是计算机理论科学中的经典问题,不仅在理论上有着重要的地位,而且在许多实际问题中得到了广泛的应用。多年来
在计算机技术日新月异的时代,在分布式系统广泛应用的今天,在人们已经逐步依赖于Internet的时候,各国都在加紧分布式计算机协同工作在工业领域的应用。汽车工业是工业中主导产业