基于SentenceLDA主题模型的短文本分类研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户：liongliong508

【摘要】

：

短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能

【作者】

：

张浩

【出处】

：

武汉邮电科学研究院

【发表日期】

：

2019年01期

【关键词】

：

短文本分类 SentenceLDA 主题模型特征扩展词向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能力范围。短文本内容简单凝练,含义高度归纳,具有极为丰富的信息资源。对海量的短文本进行理解、处理和分类,可以发掘出用户感兴趣的相关信息。短文本分类是文本数据挖掘的重要手段之一,也是信息过滤、信息检索、用户推荐等领域的一项自然语言处理基础任务。如何快速准确地实现较大规模自动化短文本分类,已经是当前自然语言处理领域内的热点和难点之一。短文本的特点包括:本身文本长度极短、内容信息稀疏,上下文共现信息不足;上下文依赖性强;即时性强且数据规模巨大。目前,传统的基于长文本的自动化文本分类技术已经比较成熟并且应用颇广,但由于短文本的上述特点,导致较为成熟的长文本分类技术直接应用在短文本分类上的效果并不是很出色。针对短文本长度极短、特征稀疏的特点,本文从扩展原始短文本特征入手,在训练好的主题模型上训练短文本,对短文本进行特征扩展;针对传统离散化文本表示的不足,利用Word2Vec工具训练词向量,对短文本进行分布式表示,将加权的词向量短文本表示与扩展后的短文本特征拼接获得一种新型的改进短文本特征表示,最终使用文本分类算法支持向量机(Support Vector Machine,SVM)完成短文本分类。本文的主要工作包括:(1)针对短文本特征稀疏的特点,从扩展原始短文本特征入手,使用适合在短文本层面进行主题挖掘的句子隐含狄利克雷分布(Sentence Latent Dirichlet Allocation,Sentence LDA,简称S-LDA)主题模型得到短文本的主题分布和主题-特征词分布,并以主题词作为特征词扩展原始短文本,实现对短文本的特征扩展。(2)利用短文本数据集同一领域内的外部正文语料库训练词向量模型,使用词向量模型得到短文本的词向量表示;针对词向量无法解决“一词多义”的现象,使用加权词向量表示让词向量获得一定的权重,与利用主题模型扩展后的短文本特征表示进行顺序拼接,结合词向量和主题词向量得到拼接的短文本表示模型,最终实现短文本分类。实验结果显示,对经过主题词特征扩展的短文本进行分类,相比仅仅使用向量空间模型(Vector Space Mode,简称VSM)进行短文本表示的结果是有一定提升的。使用Word2Vec工具,将分布式词向量引入短文本表示中,将词向量与主题向量融合起来进行短文本的特征表示和扩展,从“词”和“句子”两个层面进行语义信息和语句结构挖掘也提高了短文本分类的准确率。

其他文献

基于碳纳米材料的电化学生物传感器的构建及应用研究

近年来,随着转基因技术的不断发展及转基因作物的大规模商业化种植,转基因产品的种类和数量持续增加,同时转基因产品的安全性也持续受到关注。为了对转基因产品进行有效管理,

学位

转基因检测MIR162玉米电化学DNA生物传感器氮掺杂石墨烯

壬基酚污染对威廉腔环蚓生物效应研究

壬基酚(Nonylphenol,NP)是一种典型的环境内分泌干扰物,主要源于农药助剂中乳化剂壬基酚聚氧乙烯醚(NPEOs)降解或含NP污废水排放,可通过污泥农用、污水灌溉、农药使用等农业

学位

NP异构体威廉腔环蚓14C-示踪生物富集生物效应

基于深度学习的人脸性别识别的研究与实现

近年来随着计算性能和样本数量等都得到了几何数量级的提高,深度学习得以发挥它的优势,在图像处理相关领域取得了突出的成就。人脸检测、特征提取、人脸识别等领域的研究已相

学位

Caffe深度学习框架人脸性别识别卷积神经网络

基于步态序列的性别识别方法研究

性别识别是生物特征识别中的一项关键性课题,在军事、公共安全、智能监控、大数据分析和行人重识别等诸多领域都具有广泛的应用前景。相比于传统的基于面部特征进行识别的方

学位

步态序列性别识别步态特征图像支持向量机卷积神经网络

ZM6镁合金铸件应力与工艺特性分析

ZM6镁合金是在实际航天航空材料中应用广泛的材料,航空航天领域应用的铸件多以复杂件为主,其中壁厚突变结构常见于各类薄壁复杂构件中。壁厚突变结构因其各部位凝固时间差异

学位

ZM6合金粘弹塑性工字型构件应力场模拟

非线性正系统的实用稳定性

稳定性问题是控制理论的核心问题之一,而实用稳定性理论作为现代运动稳定性理论的研究方向之一,主要研究给定的初始估计区域与随后偏差估计区域的运动,并且实用稳定并不弱于

学位

实用稳定性非线性正系统线性时变正系统切换系统时滞系统

来源诺卡氏菌属的菊糖果糖转移酶的性质鉴定与应用

双果糖酐Ⅰ（α-D-fructofuranose-2′,1:2,1′-β-D-fructofuranose dianhydride,DFA Ⅰ）是一种由两个果糖组成的环状二糖,与功能性二糖双果糖酐ⅠII（α-D-fructofuranose-2′,1

学位

双果糖酐Ⅰ菊糖果糖转移酶酶学性质双酶联用

基于纳米材料的电化学生物传感器的制备及应用

纳米材料是纳米技术推广应用的基石,在不同领域其表现出了不同特殊性能,在科技发展和社会进步中起到中流砥柱的作用。纳米材料具有大的比表面积,优良的力学、光学、电学、磁

学位

纳米材料苝酰亚胺电化学生物传感器过氧化氢

被动非视域半影成像方法的研究

近年来,重建隐藏场景问题引起了越来越多的关注,非视域成像技术通过对携带隐藏场景信息的光场进行采集和处理从而完成目标的重建,在许多重要应用中具有很大的潜力,包括医学,

学位

非视域成像半影成像正向传输模型二维图像重建优化寻找

马氏环境下带交易费用的风险模型研究

在保险公司投资的过程中,买卖股票(风险资产)是需要佣金、印花税、过户费的,即交易股票是有交易费用的,尤其是频繁的交易时,投资者的整体交易费用是很大的。因此本文研究了交

学位

交易费用Sinc数值算法期望折现分红总量阈值分红策略期望折现罚金函数

基于SentenceLDA主题模型的短文本分类研究

与本文相关的学术论文