基于网页结构与链接关系的中文文本分类

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:kmask
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、通信技术的高速发展,以及互联网基础设施建设与网络信息工具的推广应用,网络上的信息正在以几何级数进行着增长。如何从网络上海量的信息资源中获得有用的部分,成为了当前信息检索领域重要的研究课题。   网络搜索引擎,是用来进行网络文本索引的一种重要手段。在网络搜索引擎的构建中,网页文本分类问题是一个关键性的核心问题。高质量的网页文本分类,对构建高效、实用的搜索引擎起重要作用。   目前针对网络文本分类问题,通常采用基于内容的纯文本分类的方法进行解决。但是由于网络文本的表现形式是超文本标记语言,本身具有极强的结构性标签和指示性链接,仅提取其中的纯文本进行分类,会丢失很多有用信息。   本论文提出了一种通过综合考虑网页的HTML,结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。
其他文献
近年来,随着人们生活质量的提高,各种数码产品逐步走入平常百姓家庭,从而诞生了大量的数码照片、视频等数字媒体,然而对于这些数字媒体的安全性却毫无保证。数字水印作为一种信息
随着信息技术的迅猛发展,网络成了人们获取信息的主要手段,它在给人们带来便利的同时,但也带来了困扰。网络的信息内容庞大,人们经常要耗费大量的时间去搜索有用信息。当人们
互联网技术的普及,促使电子商务被越来越多的用户所接受。推荐系统可以与用户进行交互,模拟商店销售人员帮助用户完成购买过程,并能根据用户的兴趣对用户进行个性化的推荐,对
随着科学技术的发展,人们的生活越来越智能化和自动化,车辆也越来越多,这给高速公路收费,小区管理等增加了压力,而智能交通管理系统能改变这一现状,提高交通管理的效率,使之
随着电子计算机技术的发展,嵌入式系统应用越来越广泛。而ARM以其高性能低功耗的特点广泛应用于16/32位嵌入式微处理器。现在很多大学都开设了嵌入式系统课程,对于这种实践与
从软件工程中软件生命周期的角度分析,软件架构是软件的核心结构与行为,因而软件架构的设计是软件设计的核心,也是随后进行代码开发的基础。因此软件架构设计的重要性不言而
随着数据库技术的不断发展和Internet的不段完善,人们利用信息技术得到数据和潜在知识的能力得到极大的提高,数据挖掘正是在这种时代背景下产生的,其实质是从存放在数据库,数
机会传感网络是一种不需要源节点和目标节点之间存在完整链路,利用节点移动带来相遇机会实现通信的自组织网络,应用于野生动物追踪、森林环境监测以及智能交通等。机会传感网
近年来,随着Internet / Web技术的快速普及和迅猛发展,互联网上的网页每天都以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。在如此类型繁多更
图像分割是图像处理与计算机视觉领域低中最基础和重要的领域之一,是图像进行视觉分析和模式识别的基本前提。阈值法因其实现简单而成为一种有效的图像分割方法,但它的高耗时