基于贝叶斯的网页文本分类算法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:alanlee75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为从Web信息资源中发现潜在的有价值知识的一种有效技术,基于Web的数据挖掘正倍受关注,Web文本挖掘是Web数据挖掘的一个研究热点。目前基于文本挖掘提出了很多算法,而简单贝叶斯算法是其中一种重要的方法。利用简单贝叶斯进行分类,需要大量训练文本来进行分类,代价很大。如何提高简单贝叶斯分类准确度,并减少训练文档数量是文本挖掘的研究重点。Web文本挖掘研究涉及取词、分词等切词处理,以及文本分类方法。这里针对英文文本作为文本分类的数据,采用改进的文档频度作为特征选取的标准,参照标准数据集进行文本特征抽取,基于简单贝叶斯带潜在主题词改进了文本分类器。在分类过程中,引入迭代因子提升迭代的速度,根据简单贝叶斯分类的基本原理,基于先验假定带有类别标签的文档,对潜在类别关键词通过有限次迭代得到分类结果。在每次迭代过程中,后验概率最大的潜在分类词作为该次迭代的分类结果,最终分类结果由每次迭代得到的分类结果综合而得。分类算法是针对Web文本分类而提出的一种基于简单贝叶斯文本分类方法,它利用了简单贝叶斯分类的基本原理,大大简化了构造贝叶斯网络的复杂性;又引用了潜在语义分析的思想,能减少贝叶斯分类的所需的大量训练文档,试验结果证明,它是一种比较有效的分类方法。所做的研究主要针对英文文本,考虑到中文取词分词的复杂性,在中文文本分类方面还需进行进一步研究。
其他文献
空间基础设施的建设对国民经济和国家安全起到的作用是至关重要的。因此,对以不同种类卫星组网为核心的空间基础设施建设的研究方兴未艾。卫星综合信息网作为空间基础设施的具
随着计算机的普及,计算机网络已成为许多行业必不可少的办公工具。而目前各行业仍利用邮电系统提供的程控交换网络进行电话通信,需支付大量的电话费,占用了各部门很大一部分
目前,负载均衡技术广泛应用于服务器集群当中,集群负载均衡技术主要分为三方面的研究内容:一、资源的重定向机制,包括:基于客户的重定向方法,基于DNS方法,基于分发器方法和基于服务
随着企业信息化进程的不断深入,把ERP引入生产管理已成为一种趋势。库存管理作为ERP的核心部分,对它的正确管理和科学决策能给企业的经营带来巨大的利润空间。 本文针对企业
Ad Hoc网络是一种无中心、自组织的、由移动节点组成的动态变化的多跳无线网络,每一个节点也兼备路由器功能。随着Ad Hoc网络的进一步发展,关于其网络中所使用的路由协议的性
随着计算机的应用领域不断扩大,数据的类型在不断地发生着变化,需要处理的数据量也与日俱增.从早期的单一数据,到以集合形式存在的文件和关系表数据,再到海量数据和无限数据
随着时间的推移,森林资源数据的规模越来越庞大,类型也越繁杂多样,对其信息的处理越来越困难,加上用户对数据处理作业的不同需求,传统的单一的计算模式已经无法适应海量的数
本文论述了XML及其相关技术的发展历程、技术要点及行业应用。由于信息表示的独立性,XML可用于数据交换;由于其层次结构特性,XML更多的用于表示复杂的数据结构和文档,因此在各行
本文研究了P2P系统中信息检索的几个关键技术。首先从在P2P环境下进行信息检索的价值出发,阐明了在P2P系统中建立节点之间关系的重要性。然后,详细地讨论了所要解决的三个关键
在RBAC中,在用户(user)和访问权限(permission)之间引入角色(role)的概念,用户与特定的一个或多个角色相联系,角色与一个或多个访问许可权相联系,角色可以根据实际的工作需要生成