基于主题模型与深度学习的短文本特征扩展与分类研究

来源 :天津工业大学 | 被引量 : 6次 | 上传用户:march2th
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术可以帮助人们挖掘隐藏在庞大文本集中的有价值的内容。目前众多研究已经在传统文本分类任务上取得了优秀的效果。但随着新型社交媒体的普及,使得互联网上出现了大量的短文本信息。短文本的种类通常包括:用户微博、电商评论、搜索引擎的搜索关键语句等。短文本通常只有l0~100字构成,而充足的数据特征又直接影响着机器学习算法的效果。因此,以往在长文本上可以取得优秀效果的分类方案,在短文本上却难以取得令人满意的效果。针对短文本分类的研究往往从文本特征扩展、改善词向量表示的质量、提高分类方案的效果,这三方面开展工作。本文基于目前在短文本分类任务上的工作开展研究,其主要研究内容包括:1)对现有的短文本扩展方案进行分析与研究;2)对现有的词向量表示方案进行分析与改进;3)对现有的特征选择算法进行分析,并用于短文本的特征提取工作。4)应用卷积神经网络对短文本矩阵进行分类。本文的主要工作包括:1)基于TNG(Topical N-Gram)主题模型提出了一种新的短文本特征扩展方案,并对该方案的优缺点进行分析;2)基于TWE(Topical Word Embedding)模型对文本的词向量和主题向量的训练方式进行改进。3)基于监督式MCFS(Multi-Cluster Feature Selection)算法,提出了一种主题合并策略,在提取关键特征的同时,最大程度的保护短文本的原始特征,减少提取过程中的特征损耗。综合上述各项成果,提出了一套系统的短文本分类框架,包括词向量嵌入、特征工程、基于CNN的分类系统。最终使用了一套开放性短文本数据集来验证本文提出的分类框架的效果。实验证明,本文提出的方案相比于众多参与对比的其他分类方案,在多个分类评价指标上取得了更优秀的效果。
其他文献
本文分析了影响系统平稳的重要因素——干扰跟踪瞄准线独立性的因素。文章还分析了指挥仪的平滑参数,测手的水平以及系统运行的初始状态对系统平稳性的影响。
本文讨论了破碎体两种分形分布的一致性,有限尺度破碎体分形的几个特征及不等概率分形破碎等问题。证明,尺度范围足够宽时,两种分形是互为近似的,且其粒级可以是更大尺度范围内的
对LY12铝的二维损伤现象进行了实验研究,利用显微观察,观察到了LY12铝中空穴的成核成长机理和裂纹的扩展机理,为进一步精细地研究该材料的损伤断裂行为提供了实验依据。还给
<正> 由中国兵工学会轻武器学会和中国人民解放军第三军医大学医学科学技术委员会联合主办的“第二届全国创伤弹道学术交流会”于1985年12月2日~5日在重庆第三军医大学野战外
将地下洞室室弹性力学解析分析过程计算机程序化,充分利用超长项级数形式的映射函数,得到复杂形状洞室围岩弹性力学的解析逼近解。
针对既有房屋进行安全鉴定工作具有十分重要的现实意义,是于国于民都大有益处的一项重要工作,应受到相关工作人员的重视。本文主要针对既有房屋的安全鉴定工作内容进行分析,
分析了国内我锚杆支护的技术特点,认为我国软岩巷道锚杆技术的主要问题是锚杆支扩系统的支护强度不够。进一步研究认为,锚杆与注浆联合支护是目前中国软岩巷道支护很有前途的新
系统介绍堤身裂缝的类型、裂缝产生的原因、裂缝险情的诊断技术和抢护方法等。
萧挞览是继耶律休哥、耶律斜轸之后辽国的又一员虎将,他有勇有谋,多次带兵攻宋.景德元年(1004)澶州之战,他当时是辽军统帅,却被宋军射杀于城外,他的死促使澶渊之盟的签定.对
本文在分析速度测量误差和数据处理误差的基础上导出了各种误差的计算公式,并举例进行了计算分析。