融合相似度图和随机游走模型的多标签短文本分类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:caoda0512116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种融合相似度图和随机游走模型的多标签短文本分类算法。首先,以样本数据和标签为节点创建相似度图,借助外部知识库计算样本与标签之间的权重,得到预测样本与标签集合之间的匹配度。然后,将多标签数据映射成多标签依赖图,在图上进行重启随机游走,并将已获得的匹配度作为初始预测值,计算每个节点的概率分布,直到概率分布趋于稳定时,节点的概率分布即为标签的概率分布,进而确定预测文本的标签集。实验结果表明,本文提出的算法有较好的多标签文本分类性能,与同类算法相比较,分类性能显著提升。
其他文献
分布式大数据计算引擎是科研机构、互联网企业和政府部门处理大规模数据必不可少的工具,它们的使用和推广促进了各个领域的快速发展,为社会进步做出了巨大贡献。但是,在多作业处理的情况下,目前主流的大数据计算引擎在资源分配和作业调度方面仍有许多不足之处,它们通常对多作业平均划分内存资源并以先进先出FIFO的方式调度作业,这样简单的资源划分方式和作业调度机制并不能充分利用系统性能。针对此问题,从计算引擎的作业层面做出了改进:在资源划分方面,通过提取作业特征对作业的任务量进行预估,判断作业任务量和作业预分配资源间的差异
针对设计模式变体挖掘准确率较低的问题,提出引入线索约束的设计模式变体挖掘方法,旨在基于约束满足问题CSP描述设计模式变体线索,给出DPVMC算法,分结构特征约束与时序特征约
编译优化技术的目的是挖掘程序中的优化空间,提高程序编译或运行效率,无效代码删除优化是被广泛使用的编译优化技术之一,它旨在删除程序中不可达的代码,以提升程序的执行效率。许多应用程序的执行路径往往与运行时的输入参数值相关,并且在一些分支路径上与运行时参数值相结合,可能存在无效代码,通过现有的无效代码删除优化,很难做出优化处理。为此,提出一种依赖数据流分析的激进蝴蝶优化方法,利用SSA中间表示,根据动态运行时的参数可能值,自动为程序生成代码形状类似蝴蝶(butterfly)的分支代码,使编译器在程序编译阶段为相
随着计算机视觉领域中各项研究的发展,目标跟踪变得越来越热门,在各行各业得到广泛应用。基于无人机的目标跟踪也随之得到发展。相比于普通的目标跟踪,利用无人机进行目标跟踪有不少优势,但是也存在一些挑战。针对有关无人机目标跟踪的数据集有限,数据质量不高,且部分数据集中数据缺少统一标注的情况,基于无监督学习,设计了一种新的无人机目标跟踪模型。该模型对UDT模型的主干网络和跟踪方法进行了改进。结合了SiamF
蛋白质复合物是细胞结构和生化机制的研究基础,如何准确识别蛋白质复合物成为近年来的研究热点。针对传统算法根据结构信息对蛋白质复合物进行搜索存在敏感度和F-measure低的问题,以及现有监督学习算法根据人为构造特征进行蛋白质复合物识别存在特征构造不能较好地反映图的真实信息等不足,提出了graph2vec-SVM识别算法。将蛋白质复合物看作稠密子图并考虑子图模块度大小,利用graph2vec将图信息转换为向量,并进一步采用SVM分类器对蛋白质复合物进行识别,提高了蛋白质复合物识别的敏感度和F-measure。
国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节。围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径。针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架。该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系
针对蒙古族传统家具纹样模糊不清、边缘失真等问题,提出了基于加权变换的图像增强方法。首先将蒙古族家具纹样分解成RGB分量,然后利用提升小波变换、平稳小波变换、插值算法和逆提升小波变换获得高分辨率纹样,最后利用加权变换函数对直方图进行修改,对贡献最小的直方图进行滤波,得到高分辨率和对比度增强的纹样。实验结果表明,该方法的评价指标峰值信噪比PSNR和结构相似性SSIM比传统直方图均衡化和双三次插值法的均
针对OSID在构建描述符时未考虑一个特征点的图像块里存在其他特征点,以及生成直方图描述子匹配速度较慢的问题,提出一种基于OSID的改进二进制描述符。在OSID描述符构建的过程中,扇形个数m的选择是固定的,因此提出当一个特征点的图像块里有多个特征点时,尝试将m的值自适应,丰富描述子所包含的信息,提高算法的正确匹配率;并将OSID最后生成的直方图描述子编码成二进制描述子,使用汉明距离代替欧氏距离进行图
数字图像拼接篡改是一种常见的图像伪造手段。在图像取证中,检测拼接伪造仍然是一项艰巨的任务。现有的拼接伪造检测方法多根据一种图像特性的不一致检测并定位篡改区域,而实际拼接篡改伪造往往会造成多种图像特性的改变。针对现有单一特征提取不能充分反映拼接图像特性导致检测精确率低的问题,提出一种通过提取光源颜色和噪声的混合特征来定位并显示拼接区域的高效图像拼接检测方法。实验结果表明,混合特征提取方法较单一特征提
通过时空异常流检测技术可以发现城市交通数据中的异常交通特征。与时间序列中单个异常流检测采用的方法不同,提出了从流序列中检测异常流分布的k最近邻流序列算法(kNNFS)。算法首先为每个位置测定每个时间区间内的单个流观测值;随后计算单个流的观测频率来构建每个位置处每个时间区间的流分布概率库;最后由阈值判定使用KL散度计算的新的流分布概率与其k最近邻之间的距离是否为异常值,距离值小于阈值则更新入流分布概率库,否则为异常的流分布。仿真分析表明,对比DPMM算法和SETMADA算法,kNNFS算法在检测精度和算法运