云模型在文本分类中的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zshuangjiamin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着因特网上电子文档信息的持续增长,人们迫切的需要一个工具去发现、过滤以及管理好这些资源,文本挖掘技术可以解决这个问题,它是以文本为对象进行的数据挖掘,可以应用于信息的检索、过滤等领域,具有很高的研究价值。而文本分类作为文本挖掘的关键技术,近年来也引起了众多学者的关注。文本分类即根据文本的内容,将未知类别的文本归类到一个或者多个预先定义好的类别中。本文结合云模型理论在处理不确定性问题上的表现,将云模型理论的相关方法应用到文本分类中,提出了一种结合云模型的文本分类方法。为了验证该方法的有效性,本文采用与传统的文本分类方法进行对比实验。结果表明,本文提出的算法在准确率等分类性能方面更优。对本文的工作以及研究成果如下:①研究了云模型的相关理论对不确定性人工智能作了介绍,阐述了自然语言和知识的不确定性以及不确定性中模糊性和随机性之间的关系,并引入了云模型的相关概念、数字特征等,探讨了云模型的正向云发生器和逆向云发生器。②将云模型理论应用到文本分类系统中自然语言中的概念是定性的,但其本身存在着不确定性,即对自然语言概念的理解具有不确定性,为了降低这种不确定性对分类效果的影响,本文提出一种结合云模型的文本分类方法,该方法分别定义文本和类别的云模型,通过计算测试文本和每个类别的云相似度,根据最大相似度原则确定测试文本所属的类别。为了验证本文理论的可行性,将基于云模型的文本分类方法与KNN分类方法作对比,通过多项实验评估指标检测,该方法相比传统的分类方法在分类准确率等方面都有所提高。
其他文献
我国于2013年初确定了第一批智慧城市试点名单,这也预示着我国城市的发展和规划开始由原来的数字化城市向更高的形态转变,即智慧城市。智慧城市是利用信息和通信技术使城市更
长期以来,对断路器热脱扣测试一直停滞在手工测量的阶段。其每项性能参数根据试验的基本原理,用传统仪器或专用测试仪器来测量。这种试验方法从结构来看,一般为分立的专用仪器;从使用方式来看,以手工操作、人工读数为主,人工计算为辅;从数据管理的角度来看,无法同时处理大量的数据,没有数据库保存测试的各项参数,无法对以前的测试数据进行比较、汇总等工作;从查找故障的角度看,无法快速准确地找到故障原因和位置;从安全
随着网络和信息化建设的不断发展,局域网设备的数量越来越多,如何保证这些设备的正确运行,出现故障如何第一时间得到通知,准确定位问题所在,并迅速解决问题,这些方面都需要着重考虑
随着多媒体数字化技术的发展和推广、存储成本的降低、网络传输带宽的增长,各种多媒体数据如图像、视频等飞速膨胀逐渐成为信息的主流,并对人们的生活和社会发展产生重要的影响
中国已成为全球最大的汽车市场,由此产生的诸如交通阻塞、交通事故等社会问题正日趋严重。车联网是解决交通问题的有效途径,中国车联网将形成巨大的新兴产业。然而,车联网中驾乘
多相流作为自然界普遍存在的一种现象,不仅是由于被测介质的介电常数会随着温度等环境的变化而变化,而且还由于被测场域中存在其他介质,会使得测量时出现介质未知的情况,并且
RoboCup机器人世界杯赛是近年来规模最大并且参与人数最多的高智能机器人足球比赛,其中仿真2D组比赛更是RoboCup世界杯中最古老的比赛项目之一,其中的多agent智能系统协作问
关系数据库中的关键词搜索问题已经逐渐成为信息检索领域的研究热点。由于基于关系数据库的关键词搜索技术不需要用户具有任何SQL语法知识和数据库模式知识,只需要输入关键词,
粗糙集是一种处理不确定性知识的数学工具,能较好地分析和处理不精确、不协调和不完备信息,在知识获取、机器学习、智能控制、专家系统、粒度计算等领域得到了广泛的应用、取得
车载自组网(Vehicular ad hoc network-VANET)是由车辆和道路两旁的基站组成的无线自组织网络,是智能交通系统(Intelligent Transportation Systems-ITSs)的一个重要构成。通