特征选择与贝叶斯文本分类方法的研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:xamchendehui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可以从海量的数据信息中发现有用的规律和有价值的知识的方法和工具。数据挖掘和知识发现技术的产生正是顺应了这个需求,并正以强大的生命力蓬勃发展,成为数据库研究的一个新领域。文本分类作为处理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和热点。文本分类技术可以在很大程度上解决信息混乱问题,从而协助人们高效管理和有效利用大量文本信息。为了得到更好的文本分类性能,本文对文本分类中的关键技术进行了分析总结,这些包括:文本表示模型、文本预处理、特征选择和分类方法等。其中特别对特征选择和贝叶斯文本分类算法作了深入的研究。在这些研究的基础上本文将改进了的特征选择方法与改进了的贝叶斯文本分类方法有效结合起来,实现了一个文本分类系统。最后我们做了两组实验来评定系统的性能。本文主要研究内容如下:   ⑴对文本分类过程中的关键技术进行了研究,包括文本表示模型、文本预处理、特征选择、分类算法等。特别对几种常用的文本分类方法进行了研究。   ⑵分析和讨论了贝叶斯分类方法的原理,特点以及性能,并根据文本分类的需要,重点研究了朴素贝叶斯文本分类的改进算法。   ⑶由于文本数据是一种常见的高维数据,因此对其进行有效的降维是提升贝叶斯文本分类性能的一个重要方法。特征选择是降维的一个重要途径,因此本文着重研究和分析了几个不同的特征选择方法。由于用于两类别分类的优势率特征选择方法有很好的分类效果,因此我们对优势率特征选择方法进行了改进的研究工作,使这个方法可以更好地支持多类别的分类。   ⑷将文中改进的朴素贝叶斯的文本分类方法和改进了的特征选择方法结合起来实现了训练算法、特征选择算法和分类算法。   ⑸用java语言实现了一个文本分类系统原型,并就这个原型进行了文本分类实验,实验数据显示基于这个设计思路建立的文本分类系统有着不错的性能指标。
其他文献
随着计算机操作系统的发展,其架构逐渐呈现出多样化。一体化内核由于其在性能等方面的优势,一直是操作系统的主要架构。但随着人们对系统安全性和灵活性的日益关注,其它架构
软件复用是在软件开发中避免重复劳动的解决方案,有效的软件复用是提高软件生产效率和质量的切实可行的途径之一。而构件库作为软件复用的基础设施,在构建复用的软件开发过程
图像配准是对两幅或多幅来自不同设备或不同时间拍摄的图像进行空间位置对齐的过程,目标是为了寻找它们之间的一个空间变换,使得在这个最优变换基础上,两幅图像间的像素点在
无线传感器网络是由大量的体积小、价格低廉、电源能量极其有限、存储能力和数据处理能力比较弱、具有无线通信和监测能力的微型节点通过自组织的方式形成的网络。这些节点被
聚类分析作为数据挖掘的一个重要任务,具有广泛的应用领域,这些不同的应用都对聚类分析算法提出了新的要求。本文提出了基于网格的并行聚类分析算法PGMCLU,该算法的创新点主
本文基于31P磁共振波谱图(31Phosphorus Magnetic Resonance Spectroscopy, 31P MRS),通过对肝脏数据样本的分类进行病情的诊断,共分为三种诊断类型:肝癌,肝硬化和正常肝。31
深度学习技术在人工智能领域已经被应用到各行各业中,为人们提供更加智能信息资源。通过组合多种类型的网络层,形成深度神经网络模型,逐层对原始数据计算,利用反向传播算法学
随着Internet技术的飞速发展,各种多样化的庞大信息资源每天以数量级的形式增长,在海量信息资源中大多数信息仍是以文本的形式存在,如何管理、组织如此庞大且不断增长的文本
如何提高现有无线网络资源的利用率,优化无线网络性能,具有重要意义。多播技术能有效地解决单点发送多点接收问题,实现网络中点到多点的高效数据传送,大量节约网络带宽并降低
针对实习医生基本技能训练时难以真实地融入到手术环境中的问题,通过研究虚拟环境下缝合线的建模方法,实现了连续控制点的缝合线3D模型的建立及其位置变换过程,提出了一种基