论文部分内容阅读
伴随着因特网上电子文档信息的持续增长,人们迫切的需要一个工具去发现、过滤以及管理好这些资源,文本挖掘技术可以解决这个问题,它是以文本为对象进行的数据挖掘,可以应用于信息的检索、过滤等领域,具有很高的研究价值。而文本分类作为文本挖掘的关键技术,近年来也引起了众多学者的关注。文本分类即根据文本的内容,将未知类别的文本归类到一个或者多个预先定义好的类别中。本文结合云模型理论在处理不确定性问题上的表现,将云模型理论的相关方法应用到文本分类中,提出了一种结合云模型的文本分类方法。为了验证该方法的有效性,本文采用与传统的文本分类方法进行对比实验。结果表明,本文提出的算法在准确率等分类性能方面更优。对本文的工作以及研究成果如下:①研究了云模型的相关理论对不确定性人工智能作了介绍,阐述了自然语言和知识的不确定性以及不确定性中模糊性和随机性之间的关系,并引入了云模型的相关概念、数字特征等,探讨了云模型的正向云发生器和逆向云发生器。②将云模型理论应用到文本分类系统中自然语言中的概念是定性的,但其本身存在着不确定性,即对自然语言概念的理解具有不确定性,为了降低这种不确定性对分类效果的影响,本文提出一种结合云模型的文本分类方法,该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。为了验证本文理论的可行性,将基于云模型的文本分类方法与KNN分类方法作对比,通过多项实验评估指标检测,该方法相比传统的分类方法在分类准确率等方面都有所提高。