同主题词短文本分类算法中BTM的应用与改进

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:hgwxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决大规模短文本语料库主题模型参数K较大导致求解慢的问题,本文提出FBTM模型,将BTM中单个词对采样复杂度由O(K)降低O(1).针对短文本词语稀疏、描述能力弱的特点,提出一种结合同主题词对与FBTM的短文本分类算法,首先使用FBTM进行主题建模,将一段滑动窗口内的同主题词对作为特征扩充到原文本中,然后使用FBTM主题分布作为另一部分文本特征.对特征扩展后的Weibo语料库进行分类实验,结果显示该方法显著提高了分类性能.
其他文献
设计安全的路由协议以确保网络与隐私信息安全是物联网面临的一个巨大挑战,提出了一种Core-Selecting机制,并将该机制应用于物联网路由协议设计,在此基础上设计并实现了一种
传统信息检索模型仅考虑考虑关键词本身的匹配程度,在林业领域信息检索时得到的检索结果不全面或不准确.为了改善检索质量,提出了一种基于本体的林业领域语义查询扩展模型.该
近年来,卷积神经网络在行人检测领域取得了同其他方法相似甚至更好的检测成绩,然而缓慢的检测速度远不能满足现实需求.针对这一问题,本文提出一种实时的行人检测方法,将分散的检测过程整合成单一的深度网络模型,被检测图片通过模型的计算可以直接输出检测结果.使用扩充的ETH数据集进行训练测试,实验结果表明,在保证准确率的情况下,该方法检测速度极快,可以满足实时检测的目的.
为了进一步描述现实生活中复杂网络的病毒传播问题,改进加权无标度网络模型的传统构造方法,考虑流量带宽和个体抵抗力两个重要因子,利用平均场理论模拟仿真病毒传播过程,对实
资源公钥基础设施(Resource Public Key Infrastructure,RPKI)是当前用于保护互联网码号资源分配真实性的技术.作为一种支撑域间路由安全的体系,它解决了边界网关协议(Border Ga
针对小麦育种中小麦单穗粒数品质测定的问题,本文提出了一种基于图像分形分割的麦穗粒数计算方法.首先,利用分形几何中分数维概念,计算图像分形维数作为像元特征,根据像元特征选定一个适当的阈值分割麦穗图像;然后通过分析分割图像的行像素的灰度特征,计算麦穗与图像竖直方向的倾角,按此倾角旋转麦穗图像使麦穗处于图像竖直方向,得到旋转后的麦穗角度矫正图;最后,根据矫正图像的列数据波形特征计算麦穗粒数.实验证明该方
旅行商问题是一个典型的组合优化问题,也是多种复杂问题的一种简化形式.因此,寻求一种有效的算法来求解此问题成为研究热点.随机松弛法是一种基于Metropolis迭代法求解的启发
随着在线支付业务的大规模应用,系统运维人员需要更便捷的服务器资源管理机制来满足系统扩展需求.本文提出一种基于容器技术的轻量化、弹性资源管理框架,并给出应用服务的性
RPKI(Resource Public Key Infrastructure,互联网码号资源公钥证书体系)中的签名对象由RP(Relying Party,依赖方)端同步下载后处理成IP地址块与AS(Autonomous System,自治域)号的
双向文本在SVG中的显示是使用Unicode双向算法实现的,然而在很多情况下双向算法无法自动生成符合语义的正确显示结果,需要进行额外的设置.通过分析双向算法的基本原理,深入探