基于主题模型与集成学习的文本分类研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:loogog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据具有非结构化特点,很难被计算机识别,因此需要对文本数据进行向量化表示.其中能否合理有效的表示文档信息是影响文本分类性能的显著因素,因此需要选取合适的文本表示方法.本文具体工作如下:本文通过融合潜在狄利克雷分配模型(LDA)和Word2Vec词向量模型即建立LDA_Vec模型来对文本数据进行表示,经实验表明该表示方法优于LDA+Word2Vec模型表示方法的分类效果.在模型建立的过程中,由于LDA主题模型提取出的主题从全局考虑,没有考虑类别信息以及主题信息不明确,因此本文从主题集中度以及主题信息熵两个方面对主题进行选择,减少不利于分类的主题.进而,针对传统的Stacking算法忽略初级分类器精度的问题进行改进,提出利用初级分类器精度对第一层输出上做精度赋权以及在第二层输入中增加原始特征.经实验表明,较传统的Stacking算法分类效果好.
其他文献
众所周知,文章[Calvo and Grigorieff,BIT.42(2002)689-701]研究了变步长3步向后微分公式(BDF3)求解抛物方程,在满足条件rk:=τk/τk-l<1.199下的稳定性,其中rk表示相邻时间步长比率.本文,我们建立了谱范数不等式,可以用作于估计可逆矩阵范数的上界.然后,我们证明了在条件rk≤1.405下BDF3格式是无条件稳定的.同时,我们也展示了BDF3格式
学位
本文考虑一个包含单一捕食者和一对具有优劣势竞争食饵的三种群捕食食饵系统.在满足一定参数条件下,这个系统存在两个半共存平衡点E*与E*,和一个正共存平衡点Ec,其中,E*表示系统此时无优势竞争食饵,E*表示系统此时无劣势竞争食饵,Ec表示三物种共存的情形.首先利用广义上下解证明行波解的存在性,并且证明这样的行波解连接两个平衡点,其中不稳定尾极限是半共存平衡点E*或E*.当不稳定尾极限是E*,且E*稳
学位
函数型数据分类在统计及其他相关领域是一个重要的研究方向.目前函数型数据分类方法大多是基于某一种特定的分类算法,本文基于收缩函数型马氏距离,提出一种新的函数型数据预处理算法,该算法可以结合诸如支持向量机、逻辑回归、最近邻算法、随机森林和神经网络等任意的机器学习算法对函数型数据进行分类.首先,本文将收缩估计的思想应用到函数型马氏距离的计算中,得到收缩函数型马氏距离,该距离可以很好地刻画出两个函数之间的
学位
目的 观察动脉灌注并栓塞联合清宫术治疗剖宫产瘢痕妊娠(CSP)的疗效及对子宫内膜容受性和性激素的影响。方法 选取广西壮族自治区妇幼保健院2019年1月至2020年12月收治的100例CSP患者作为研究对象,按照治疗方式的不同分为对照组(甲氨蝶呤囊胚内注射联合清宫术,n=50)与观察组(动脉灌注甲氨蝶呤并栓塞联合清宫术,n=50)。比较两组手术情况、瘢痕蜕膜与非瘢痕蜕膜整合素β3及白血病抑制因子(L
期刊
加拿大的北方森林主要有两种灾害:一种是火灾,一种是云杉蚜虫.云杉蚜虫的破坏力极强,它的爆发会造成巨大的损失.因此,建立适当的数学模型来研究其动力学行为具有重要意义.本文主要研究一类Holling Ⅱ型功能反应函数的扩散方程的动力学行为,主要内容分为以下三部分.首先研究了扩散系数为零时的常微分方程模型,通过对其稳态解的刻画与分析,进而得到常微分方程正解的动力学行为.其次分别研究了具有Dirichle
学位
众所周知,管道在输油、输气、调水、核电及化工等重大工程中有着不可或缺的作用,但是随着使用年限的增加,管道内壁难免会由于腐蚀、流体冲击、摩擦等作用降低管道的使用性能甚至使其无法正常工作,从而减少使用寿命,所以对管道内壁进行定期检查就显得极其重要。但是,目前的涡流、漏磁及超声波等方法大多是对管道内腔缺陷进行检测,而无法确定缺陷的具体三维形貌,限制了检测人员做出高效、合理的应对措施。为此,论文提出了一种
学位
针对Riesz分数阶对流扩散方程离散后的线性系统,本文研究了该线性系统中Toeplitz结构的系数矩阵的生成函数,并运用该生成函数的理论分析了此类Toeplitz矩阵的特征值范围.在此基础上,建立了双参数分裂迭代法收敛性的简化证明,并通过该迭代法构造了双参数分裂最优循环预处理子.理论和数值结果都表明了,预处理后的矩阵的特征值是聚集的并且都聚集于1,从而很好地加快了Krylov子空间迭代法的收敛速度
学位
(5,6,7)-富勒烯图是指3-正则平面图且仅含有五边形面、六边形面以及七边形面,它也是通常富勒烯图的推广.对一个(5,6,7)-富勒烯图,一个六长面圈称为共振的若它的边界(或它本身)是一个-交错圈,其中是图的完美匹配.(5,6,7)-富勒烯图的环链是指由9)个面圈的圆形排列形成的子图,使仅有两个相继面圈含有公共的边且这些公共边都是独立的,记作[(a1,(a2,...,(ai)],其中(ai)∈{
学位
大数据、云技术、人工智能等科学技术日异月殊,推动社会经济、物质生活以及人类思想意识不断进步,与此同时也产生了信息泄露、网络诈骗、病毒传播等复杂问题。金融作为国家重要的核心竞争力之一,防范和化解金融风险是金融工作的根本性任务。近年来我国金融产品和服务日新月异、琳琅满目,但也存在金融欺诈、理财乱象、金融消费者投诉量增多等风险和问题。国内多位专家学者也提出借鉴美国消费者金融保护局的经验建立系统化、科学化
学位
锅炉水冷壁容易出现腐蚀、爆管等缺陷,这严重影响着火电机组的安全运行。电厂锅炉存在内部空间较大、温度较高、检测孔口较小等问题,人工检修效率较低且易出事故。四旋翼无人机是近年来发展较快的一种飞行器,因其具有垂直起降、定点悬停、操作简单等众多优点而被用于工业巡检。本文设计了一款面向锅炉进行巡检作业的高负载折叠式耐高温四旋翼无人机用于锅炉缺陷自动化检测,并基于ANSYS仿真软件验证了无人机结构强度和高温环
学位