面向非平衡文本情感分类的TSF特征选择方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:hanyikuaile1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。
其他文献
轮廓检测在目标识别、图像分割和模式识别等图像分析领域有着非常重要的意义。根据视觉的生物学原理,研究人员已提出了针对灰度图像的轮廓检测方法,并取得了较好的检测结果。
已有的粒子群模糊聚类算法需要设置粒子群参数并且收敛速度较慢,对此提出一种基于改进粒子群与模糊c-means的模糊聚类算法。首先,使用模糊c-means算法生成一组起始解,提高粒
指挥控制行为模型是军事分析仿真系统的主要建模对象之一。通过改进的分层任务网对军事分析仿真系统的指控行为进行建模。指控行为模型由统一的任务描述规范和通用任务管理器
关于Word文档副本创建存在内容复制和文件复制两种方法,通过对OOXML文件和各类时间属性的研究和分析,有效地实现了对Word文档副本的取证,从而鉴定源文件或复制文件。
针对移动群智网的用户激励和保护问题,基于人群搜索优化和协作竞争研究了一种用户激励机制。在该机制中,根据时域、空域和频域对感知区域内的移动节点给出定位信息定义,并对
逆P-集合是具有动态特性的集合模型,逆P-集合的动态特性来自集合内元素(属性)的动态迁移:元素迁入使得集合的边界向外扩展,元素迁出使得集合的边界向内收缩,从而产生扰动的边界
传统的深度置信网络(DBNs)训练过程采用重构误差作为RBM网络的评价指标,它能在一定程度上反映网络对训练样本的似然度,但它并不是可靠的。而最大信息系数(MIC)能反映两个属性间的相关度,保留相关度较大的属性,且MIC较稳健,不易受异常值的影响,可作为网络评价指标。故提出一种基于最大信息系数(MIC)的深度置信网络方法,一方面用MIC对数据进行降维预处理,提高数据与网络的拟合度,降低网络分类误差;
微博是一种社交网络服务,它主要基于用户的关注关系进行信息分享和传播,具有时效性强、传播迅速等特点。将微博看成是反映城市动态的一类感知器,从识别微博的主题入手,检测微
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算