【摘 要】
:
随着互联网时代下网络信息的爆炸式增长,多标签文本分类已经成为处理文本信息数据的一种有效手段。信息数据可以通过多标签文本分类快速准确地定位到所属类别,多标签文本分类
论文部分内容阅读
随着互联网时代下网络信息的爆炸式增长,多标签文本分类已经成为处理文本信息数据的一种有效手段。信息数据可以通过多标签文本分类快速准确地定位到所属类别,多标签文本分类算法渐渐成为自然语言处理领域的研究热点。但是目前的多标签分类算法还存在着数据的类不平衡和计算复杂度高的问题,而且通过网络产生的多标签数据存在特征维度高、数据复杂等特点,当直接用于分类任务时,容易对分类效率和分类准确率产生影响。基于这些问题,本文对多标签文本特征降维方法和分类算法进行研究,分别改进出基于Kullback-Leibler散度依赖性最大化的多标签降维方法和基于引力的多标签文本分类模型。针对多标签分类过程中多标签数据的高维特征会导致计算难度大和分类效率低等问题,通过对基于依赖性最大化的降维方法进行改进,得出一种基于Kullback-Leibler散度依赖性最大化的多标签降维方法。在分类过程的特征降维阶段,将原始矩阵映射到低维空间中并通过Kullback-Leibler散度最大化原始特征描述与类标签之间的依赖性,由于不需要特征分解,使得计算量得到很大降低。实验结果表明该降维方法能够有效进行多标签数据降维,提高了分类效率。针对现有的多标签文本分类算法存在计算复杂度高和数据的类不平衡等问题,通过对引力模型改进得出一种基于引力的多标签文本分类模型。在训练阶段,首先计算出每个类别的质心向量,然后计算文档与类质心之间的相似性获得相似性区间。在测试阶段,通过比较未定义文档和类质心之间的相似性是否在相似性区间内来进行多标签文本分类。实验结果表明,改进的多标签文本分类方法在性能指标上优于现有一些常用的多标签文本分类方法,证明了该方法用于多标签文本分类中的有效性和可行性。
其他文献
近年来,视频监控领域下的人脸识别得到了广泛关注,通过视频监控来追踪犯罪分子,大大提升了案件的侦破率。但是犯罪分子可能通过伪装,来逃避监控系统的追查。伪装人脸识别作为
本课题针对非真实感渲染算法研究中的问题,研究并提出了基于单张图像的两种风格化渲染算法——人脸卡通画风格和低模风格。对于人脸卡通画风格的非真实感渲染分为很多不同的类型,本课题针对简单线条人脸表达及夸张的风格进行模拟,旨在绘制出能够充分表现人脸特色的漫画效果。对于低模风格的渲染,我们用颜色大小各异的三角形抽象地表现参考图像,渲染的难度在于利用有限数量的三角形还原参考图像的主要内容,同时保证渲染结果的美
基于金兹堡-郎道理论的相场法(Phase Field,PF)是目前凝固组织模拟中最有潜力的有效计算技术之一,不必跟踪固-液界面,还可方便地将流动等外场引入到相场控制方程中。格子Bolt
图像分类是计算机视觉领域最基础的研究任务之一。近年来,随着人们日常生活场景需求的变更以及市场化因素,研究者们从对猫、狗、花、鸟等大尺度粗粒度图像分类任务的研究关注
作为柔性电子封装技术的关键技术之一,柔性基板技术因其具有耐用、柔性、轻质等优点,有着广阔的发展前景。随着集成电路技术的发展,对柔性基板技术也提出了更高的要求。现有
有序回归问题是机器学习中一类重要的问题,它的目标是预测离散的有序类别,这导致它区别于多分类和回归问题。有序回归方法成功应用在很多现实场景中,包括年龄预测、信用评估
随着工业化、信息化的不断深入发展,以及人口老龄化造成的劳动力成本持续上涨,提高工业生产的信息化与智能化水平显得尤为重要。基于推动企业升级换代与促进社会生产力发展的考虑,本文针对积木机器人生产线上无序摆放、相互堆叠的小型零部件的分拣问题,设计了一种基于计算机视觉的可自主抓取的、扩展性强的小型零部件抓取系统,主要的研究内容和成果如下:1.结合零部件的实际特点,采用特征组合的方式来对颜色直方图特征和SI
近年来,一些政府单位办事程序繁冗复杂,引发办事群众的不满与诟病,凸显了地方政府政务服务乱像。本届中央政府通过大规模调整和下放行政审批事项,深入推进行政审批改革,各地
冠状动脉分割在血管解剖结构分析、冠脉疾病临床诊断(例如冠脉狭窄、冠脉钙化等)、冠脉外科手术方案制定以及血流情况建模等研究中至关重要。目前冠状动脉分割方法主要包括主