基于贝叶斯网络的短文本分类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类的一般过程是首先对训练文本进行预处理,把抽取出来的特征用特征选择算法进行过滤,得到一个特征空间,然后对特征空间用分类算法学习获得一个分类器,最后分类器实现对测试文本的分类。   短文本分类问题是基于短文本应用领域的必须解决的具有挑战性的基础性关键问题之一。短文本具有长度短、所描述概念信号弱的固有缺陷,对于短文本由于其特征数少而使分类效果不理想的情况,本文提出了一种改进的贝叶斯网络文本分类算法,改进之处在于贝叶斯网络结构学习阶段的寻找父节点步骤,本文算法在考虑了连接强度的因素后,减少了本来不相关的两个节点被归类为父子关系的错误干扰,使为每个节点找到的父节点更加准确。一方面充分发挥贝叶斯网络考虑特征间的关联特性的优势来扩充短文本信息量不足的固有缺陷,另一方面为贝叶斯网络的构建引入了连接强度的概念,使构建贝叶斯网络结构的寻找父结点阶段的寻找准确性得到了提升,从而使短文本的分类效果得到了提升。   因此本文对以下两方面进行了研究,主要工作如下:   (1)针对短文本由于长度短而使分类性能不佳的问题,本文利用贝叶斯网络的文本分类算法进行分类,并将之与同等条件下的朴素贝叶斯分类算法进行对比。   (2)在普通贝叶斯网络构建时引入连接强度的概念,并分析其性能提升的原理且将普通贝叶斯网络与连接强度贝叶斯网络进行实验对比。
其他文献
近年来,随着用户对网络可移动性的要求越来越高,Mesh网络走入了越来越多人们的生活。然而在Mesh网络中,所有的通信都是基于开放的无线“连接”,所以Mesh网络的安全协议成为人
在形式语言和自动机理论[1]中,有限自动机和它接收的正则语言已经应用到各个方面,但是有限自动机只能接收正则语言的限制,使得有必要把传统的有限自动机进行推广,用半环[2]-[
在一些基于社交网络的电商平台上,例如ThisNext和Epinions,一个买家可以在社交网络中同其他买家分享他/她的商品评价。如果一个买家提供了高质量的评价信息,他/她就能够影响大量
随着我国数字家庭和数字电视产业的快速发展,数字图像/视频显示呈现大尺寸、高清化趋势,大量的标清电视信号需要转换为高清数字信号,因而由低分辨率图像获取高分辨率图像的高
学位
本文主要研究了视频图像序列光流的运动估计及匹配应用问题,它是计算机智能化的一个基本问题,也是动态图像分析的核心问题。图像系列光流运动估计是快速而准确地检测图像系列帧
聚类是数据挖掘的重要分支之一。近年来随着数据挖掘研究的深入,涌现出大量新的聚类算法,每种聚类算法都是针对某一应用领域,也各有其优缺点。在众多的聚类算法中,模糊C-均值
随着信息技术的飞速发展,现实世界中的大量空间数据被存储在空间数据库中,为了找出空间数据库中数据间的相互关系及其规律,提出了空间挖掘技术。空间聚类是空间数据挖掘的重要方
在信息社会中,随着移动通信技术的发展和移动终端的日益普及,以及软、硬件性能的不断提升,使得移动应用的领域不断扩张,而人们在充分使用移动应用所带来的便利的同时,对应用
随着计算机技术与网络技术的发展和普及,为了实现远程数据传输、远程监控等功能,网络化已成为新一代嵌入式系统发展的一个重要趋势。具有远程监控功能的心电仪应运而生。本文
学位