基于最大熵模型的网页分类

来源 :山西大学 | 被引量 : 0次 | 上传用户:zhujie18604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅猛发展,对网页进行分类成为处理和组织大量文档数据的关键技术。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。研究者通过实验比较和分析了基于最大熵模型的分类器的分类性能,并且分别对其进行了特征优化、预分类处理以及平滑处理的比较,结果发现预分类处理对分类的帮助是很明显的,其余两种操作也在一定程度上提高了分类精度。 本文针对最大熵的优点做了以下研究:(1)对网页结构进行分析,根据其连接程度分为C-Hub页面和内容页面两种,以便进一步研究时,可根据不同的特点采取不同的研究方法,旨在提高网页的分类精度。 (2)对网页进行了预处理,包括分词、建造类别词库等。通过对词专指度的计算,给出能够确定文章类别的关键词入库。 (3)基于最大熵模型,本文用GIS算法求得特征函数,并用传统的特征归纳方法,通过计算两个概率分布之间的距离,分析引入某一特征后的信息增益,对每一特征进行筛选,选出有用的特征组成一个特征优化集合。 (4)分别对结构分析得到的两种页面设计特征函数。对于内容页面,由于其形式与纯文本文档非常接近,我们用词-类别作为其特征,采用词频作为特征值;对于C-Hub页面,由于有较高的文字链接比,我们主要对HTML格式进行分析。首先通过分析HTML语言提取出一个优化的HTML标记集合作为研究对象,然后引入Salton提出的文本表示方法,并加以改进,用以表示网页内容,把词本身的特征与其所在位置相结合,计算出特征值ti,生成特征函数。 试验结果表明基于最大熵的网页分类方法是行之有效的。它不但能得到最一致的分布,而且保证了网页分类的查准率和查全率。而且它比其他方法较少依赖语言学知识、预处理或语义数据库。不失为一种理想的网页分类方法。
其他文献
地下管网是现代化城市一个既庞大又重要的公共供应网络,具有种类繁多、结构复杂、数据量大等特点。积极研究将先进的计算机理论和技术稳妥地应用于管网日常维护、规划和建设,有
粗糙集理论是一种新的处理不确定性知识的数学工具。近年来,粗糙集理论在知识发现中的应用已取得了很大的进展,基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一,而在数据挖掘
安全匿名的网上投票协议的研究计算机软件与理论专业研究生陈娟指导教师袁丁随着网络的迅速发展,电子选举作为电子政务的一个重要方面逐渐被应用到现实选举中。与传统的人工选
随着信息化浪潮的席卷全球,数据量的爆炸式增长。海量数据的复杂性和非结构性给信息的处理带来了巨大的挑战。而文本资源以其占据资源量少、容易上传和下载等优点占据了整体
随着计算机技术的发展和应用的不断深入,各种平台系统层出不穷。人们在轻松地选择最符合需求的平台软件的同时受到了平台迁移等的困扰。一些平台依赖性过高的传统软件,在迁移
在应用三维可视化技术之前,地质资料的分析解释都局限于二维、静态的表达方式,它给人们直接、完整、准确的理解与感受地下地质情况造成了困难。三维地质建模运用科学计算可视化
在基于内容的多媒体信息检索中,人们利用特征提取算法从多媒体对象中提取出特征矢量,然后利用特征矢量之间的距离衡量多媒体对象之间的相似度。相似性检索的实现就是通过计算查
随着网络技术的飞速发展,计算机网络所面临的严峻网络安全形势。本文分析了对几种主流网络安全技术进行了分析,指出了这些技术中存在的不足,重点介绍了目前一些入侵检测的方法,并
随着以电子期刊和在线文档形式存在的科技文献的不断增加,对科研教学人员来讲,如何充分利用现有的网络信息资源,从庞杂的电子文档中及时、准确地获知与自己研究领域相关的最新科
随着网络技术的发展和互联网的广泛应用,人们对网络的研究也在逐步的深入。Internet拓扑图为大范围开发、利用Internet提供了一个有力的工具。网络研究者可以利用拓扑生成器