超文本的集成分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Mr__x007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,万维网上的文档数目成指数级增长,在如此浩瀚的信息库中,用户非常难找寻到自己所需要的信息。因此如何自动且高效地处理这些海量文档信息成为目前重要的研究课题。文本分类是将从网上抽取到的文档信息自动有效地分成一定的类别,以便于信息的检索。基于此,本文主要研究文本信息分类和超文本信息分类的相关算法。首先,本文介绍了文本分类的发展概况和相关技术,研究了常用的分类算法,并分析相关算法的性能,为文本分类和超文本分类算法的研究提供理论基础。其次,对于文本分类,本文研究与分析了贝叶斯分类算法,贝叶斯分类算法是基于概率统计原理的一种分类方法,但是朴素贝叶斯分类器主要存在的问题是需要属性之间条件独立的假设,由于文本单词之间相互存在很多的关联,同时也存在有很大的“噪声”,很难满足其属性之间条件独立的假设。本文利用树增广朴素贝叶斯网络分类器,提出了一种基于贝叶斯的集成分类算法。通过K-Mean聚类方法,构建相互独立的条件属性子集,然后在条件属性子集建立TAN分类器,并将这些分类结果进行集成。在20新闻组和微型新闻组上进行实验,实验结果表明,集成分类算法在所有的类别上取得了更好的泛化性能。再次,研究了超文本中的多元化信息规则,并分析了不同分类算法在不同规则中的分类性能。本文通过对抽取到的数据集文档中的标题,超连接和标记等超文本信息,以及文档内容本身分别建立分类模型,然后根据神经网络集成各个分类模型得判别结果。提出一种基于元信息的超文本集成分类算法,该算法更好的综合利用了超文本的多元结构化信息。实验结果表明,相较于单独利用某种超文本结构信息进行分类的方法,基于元信息的超文本集成分类算法具有更好的分类性能。
其他文献
海量教育考试数据资源的数据挖掘与分析研究工作,对于充分发掘教育考试数据的潜在价值,更加科学地进行教育管理及决策具有非常重要的意义。   论文以北京教育考试数据资源系
学位
在“数据爆炸,知识贫乏”的网络时代,人们希望能够对数据进行更高层次的分析,以便更好的利用这些数据。于是,数据挖掘技术应运而生,并显示出强大的生命力。如今,数据挖掘技术正在不
信息技术的飞速发展,导致了工业领域的深刻变革,并逐步形成了工作在工业现场的分布式网络化控制系统。以太网作为办公环境下使用最广泛的通信方式,在工业界也越来越受到关注,
粗糙集理论是一种处理不精确、不确定和不完备信息的数据分析方法,以其为理论基础的数据分析与处理技术得到越来越广泛的应用。决策信息系统分解作为解决大型决策表数据海量
语义物联网是语义网与物联网的结合,主要目的是利用语义网的语义标注技术解决物联网中的资源异构问题,从而实现资源的高效利用。传感器网络是物联网的基础设施,是应用程序获
随着无线网络的发展,近年来无线Mesh网络也蓬勃发展起来。做为一种新型无线通讯网络,无线Mesh网络有着自组性、自愈性、频谱效率高、覆盖范围大、可扩展性能强、可靠性强等特点
本文就基于文本的信息隐藏技术做了相关的研究。 本文首先介绍了信息隐藏技术的研究现状及应用领域,论述了信息隐藏技术的定义、通用模型、基本要素等方面,并对信息隐藏技术
遗传算法是模拟生物界的进化过程而产生的一种现代人工智能算法,它具有天然的并行性,在求解复杂、大规模、非线性、不可微的优化问题中具有较高的性能。当今单核计算机现在已
万维网信息的爆炸式增长使Web已经成为世界上最大的信息库。面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需要的信息需要耗费大量的时间,造成了“信息过
人工蜂群算法(Artificial Bee Colony Algorithm, ABC)是一种受蜜蜂采蜜行为启发产生的新型群体智能优化算法。由于控制参数少、易于实现、计算简洁等特点,近年来ABC算法备受