基于多属性关联改进文本分类算法

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:yushion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大量有用信息以文本形式存在,因此如何快速对大规模的文本分类成为亟待解决的问题。为应对这一问题,文本自动分类应用而生。文本自动分类结合了统计方法和机器学习理论,将文本划分到预先定义的类别,能较好地解决大量文档信息归类的问题并得到广泛应用。目前文本分类的研究主要集中在文本表示和分类器算法两个方面。首先文本经预处理得到的文本表示空间具有高维性和稀疏性,导致分类性能下降及效率较低。文本分类器有朴素贝叶斯分类器、k-近邻、支持向量机、神经网络等。本文绪论简要介绍文本分类的产生原因、基础理论以及研究进展;然后介绍主要文本表示模型的基础理论,并介绍文本分类算法中主流学习算法的基本思想和理论依据;介绍文本分类算法的评估标准和常用基准数据集。其次机器学习方法未充分考虑文本的语义信息,忽略了各条件属性之间以及条件属性与决策属性之间的关联,本文紧紧围绕属性间关联这一问题,在分析文本分类研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何挖掘属性间关系以提高文本分类准确率;二是如何改进文本分类算法提高分类器性能;三是根据以上研究,通过大量对比实验验证了本文提出算法的有效性。本文开展并完成了以下工作:1.为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WENB)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的Navie Bayes (NB)。该分类方法在16个UCI标准数据集上进行了测试,与NB、贝叶斯网和由AdaBoost训练出的NB进行比较。进一步将该方法应用到文本数据集中,将其与NB在4个文本数据集上进行比较。实验结果表明,该分类器具有更高的分类精度与泛化能力。2.NB算法是一种概率统计方法,它基于属性独立性假设,忽略了属性间关联度,致使分类精度降低。为充分利用属性间关系以提高分类性能.提出了基于属性对的朴素贝叶斯方法(NBA)。该算法在计算属性先验概率时,将相关属性同时计算,考虑属性间关联信息对分类的贡献,在一定程度上避免了属性独立性假设的弊端。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于NB算法。3.C4.5算法是一种自顶向下的一步贪婪搜索算法,该算法只能找到分类问题的局部最优解。为提高找到全局最优解的可能性,本文提出了向前两步的决策树构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于C4.5算法。
其他文献
随着网络对传统出版物和媒体的冲击,用户对于新闻浏览习惯发生了改变,越来越多的人养成了每天在网络上浏览新闻的习惯。本文研究如何高效、准确地从海量的新闻和新闻评论中找
近年来,云计算技术在学术界和工业界都成为关注的热点。大型数据中心提供的服务,尤其是Web应用,以及使用的各种虚拟化技术构成了云计算的基础架构。数据中心中通常拥有大量的
数据存储策略的研究是无线传感器网络有关数据管理与处理的一项重要研究内容。其本质就是尽可能有效地利用有限的存储空间和有限的节点能量,将感知数据存储在网络中的某个确
逆向工程是近年来发展非常迅速的一个研究领域,应用领域非常广泛,是CAD/CAM领域缩短产品再设计与制造周期的重要技术之一。而曲面重构问题正是逆向工程中的关键内容。而随着
随着数据规模的不断扩大和用户数量的急剧增加,传统的结构化数据库访问面临的压力越来越大,提高MySQL等结构化数据库的读写性能成了一个亟待解决的问题。Redis内存数据库将所
随着微电子技术、通信技术和嵌入式计算技术的发展与进步,无线传感器网络得到了广泛地应用,并引起了国内外研究人员的的极大关注。为此,本文对无线传感器网络中具有重要意义
随着互联网应用的日渐多样化,在实际的互联网应用中,存在着大量对名人、明星、罪犯、热门图像等特定人脸图像的搜索需求。传统的文本检索具有检索方式单一的局限性以及检索精
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多
数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、交通治理以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,多数据流
医学图像三维重建是一个多学科交叉的研究领域,是计算机图形学和图像处理技术在生物医学工程中的重要应用。它涉及到数字图像处理、计算机图形学以及医学领域的相关知识。医