基于图卷积神经网络的文本表示与文本分类研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:ospriteo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指利用海量的文本信息进行准确分类,在垃圾邮件检测、信息检索等领域有着重要作用。在大多数文本分类任务中,文本在内容上的关联关系不仅存在于上下文范围内,还会出现在不连续的文本之间。依靠传统卷积和循环神经网络的深度学习方法能够有效处理上下文范围内连续的文本在内容上的关联,但却忽略了全局上不连续的文本在内容上的关联。图卷积神经网络(GCN)能够有效处理包含丰富关系的任务。基于GCN设计的文本表示与分类模型TextGCN能够有效将文本关系表示为图的形式并进行文本分类,成为图卷积网络模型中分类效果较好的模型。但是TextGCN模型在进行文本表示时没有解决依据词汇的主题含义和上下文关系准确进行词特征表示的问题,同时也没有解决利用多维度的词特征信息准确构建文本特征表示的问题。本文基于TextGCN模型并利用LDA主题模型和Word2vec词特征表示模型对上述问题进行研究。本文的主要工作如下:(1)设计了一种基于TextGCN模型结合LDA主题模型与Word2vec模型使用节点表示文本的文本分类模型(LTGCN)。模型由文本表示模块和文本分类模块组成,文本表示模块由文本关系权重构建和词特征表示两个子模块构成。文本关系权重构建子模块利用LDA模型设计了一种从主题维度构建组成各文本和词汇之间权重关系的策略;词特征表示子模块设计使用GCN进行特征编码,从而依据词汇在文本中的主题含义有效构建出词特征表示;文本分类模块将生成的词特征表示与Word2vec词特征向量相融合以进一步强化词特征的表示能力,并最终使用softmax分类。实验结果表明,LTGCN模型相较于TextGCN基础模型,在Ohsumed和Mr数据集上,分类准确率分别提升了0.99%和0.27%。(2)设计了一种基于LTGCN使用图表示文本的文本分类模型(LGGCN)。模型由文本表示模块和文本分类模块组成,文本表示模块由文本关系权重构建和文本图特征构建两个子模块组成。文本关系权重构建子模块利用LDA模型设计了一种从主题维度构建文本内的词汇关系并构建描述文本内词汇关系的文本关系图的策略;文本图特征构建子模块设计使用一个由GCN和全连接层并联的网络结构,利用该结构对文本关系图进行特征编码并构建能有效表示文本主题信息的文本特征矩阵;文本分类模块使用GCN处理文本特征矩阵形成文本分类特征向量,并最终使用softmax分类。实验结果表明,LGGCN模型相较于LTGCN基础模型,在Ohsumed、R8和R52数据集上,分类准确率分别提升了0.33%、0.73%和1.41%。最后与当前其他基于深度学习的分类方法的分类效果进行对比。
其他文献
追求现代电网,让消费者能够参与环境友好型能源,是许多电力设施规划者和研究者关注的中心。这种兴趣促进了当代电网系统对可再生能源(REs)的高度接受,这种新的电网组织方式被称为微电网(MG)。然而,风能和太阳能光伏等间歇性能源在现代微电网(MG)中的高渗透率导致了一些关于电网稳定性、能源管理、辅助服务和市场波动的重大挑战。应对这些挑战需要具有短响应时间的高效储能系统,如电池储能系统(BESS),它可以
学位
在过去的十年中,随着环境挑战的提出,固体废弃物的再生利用成为一个极具环保效益与经济效益的研究热点。近年来,人们对利用建筑垃圾与工业废物协同制备辅助胶凝材料(SCM)进行了大量的研究,以帮助减少建筑垃圾对环境的影响。最近的研究表明,建筑垃圾的再生产品——再生微粉具有一定的活性,可尝试制备胶凝材料,但相关学者发现,无论再生粉的粒度和来源如何,再生微粉掺入到普通硅酸盐水泥中的最佳掺量限制在0-30%。水
学位
工作时间的逐渐增加,使如今过度劳动的情况日益加重,这大大影响了劳动者对生活质量与身心健康的主观感受。本文依据有关幸福感影响因素、工作特征与幸福感关系等方面文献的梳理,使用2017年中国时间利用调查(CTUS)数据和2017年中国家庭金融调查(CHFS)数据重点研究城镇职工工作时间对个人生活满意度的影响以及影响机制。具体分析如下:首先对样本中劳动者生活满意度的总体情况进行描述,并分析不同工时下生活满
学位
随着国民教育理念的发展和进步,教育界已经认识到传统教育方法的弊端,实行新课标改革策略,新课标展现了新时代的教育理念和模式,是我国教育体制的重大进步。初中生物新课标教学改革倡导建立以观察、调查、实验为主的探究性学习方式,作为初中生物的主要教学方式——生物实验教学法就是主张培养学生的综合能力和素养,实现高效的生物教学成果。新课标思想下初中生物教学需要改变之前"重视理论、轻视实践"的现象,重视实践性教学
会议
本文以我国2006—2020年深沪A股上市公司为样本,立足于“掏空效应”和“监督效应”的双重视角,探究了企业纵向兼任高级管理人员与企业债务违约风险之间的关系。实证研究结果表明:纵向担任高级管理人员发挥了更多的“掏空效应”,即上市公司纵向兼任高级管理人员的现象会提升企业19.5%的债务违约风险。当董事长纵向担任高级管理人员时,公司的违约风险更高。进行了倾向得分匹配(PSM)、Heckman两阶段模型
学位
随着经济全球化日益深入,各国上市公司业务日趋多样化,公司面临的市场风险也日趋复杂,汇率、利率和商品价格波动都会造成市场风险,面对这些市场风险,大多数公司行之有效的方法是使用金融衍生工具进行套期保值,尽可能多的降低公司未来损失的不确定性。对于投资者而言,想要提升投资回报,就要解决如何及时通过公司管理层发布的风险信息和管理决策来准确判断风险程度,并进行行为决策,而这一过程并非仅仅依靠投资者个人的知识储
学位
雾滴尺寸及其运动速度直接影响药液的着靶效果和农药利用效率。为研究喷头雾化区域雾滴尺寸和雾滴速度空间分布,选取空气诱导扇形喷头IDK120-03、万能型平面扇形喷头LU120-03和防飘移扇形喷头AD120-03等3种典型喷头,利用相位多普勒粒子干涉仪测量了所选喷头在不同压力下的雾滴尺寸和雾滴速度,建模分析了喷头雾化后雾滴尺寸和雾滴速度空间分布规律。结果表明:在雾滴尺寸分布中,IDK120-03、L
期刊
2004年,石墨烯的问世引起了全世界的广泛关注。凭借极好的物理与化学特性,石墨烯成为战略性新兴产业中新材料领域的重要组成部分。石墨烯不仅深刻影响着电子信息、新能源、航空航天、海水淡化等领域,更有可能在“硅时代”后,引起一场颠覆性的技术革命。相较于其他发达国家,中国虽然石墨资源丰富,但起步较晚,在技术创新与产品转化、产业规模化与商业化发展、宏观环境改善等方面都存在一定的不足。因此,分析石墨烯产业技术
学位
自2015年中央提出“大众创业、万众创新”政策以来,中国居民的创业热情不断高涨。根据《2019年中国大众创业万众创新发展报告》,2019年新注册企业数量已经达到739.1万户,比上年增长10.3%,全年日均新增企业2.02万户。创业是一项高风险与高收益并存的活动,具有工作时间不固定、高工作要求、工作收入不稳定等不同于其他职业的特性。一方面,创业成功人士获得可观收入,赢得大众的鲜花与掌声;另一方面,
学位
近些年互联网+的概念已经逐步渗入到各个传统领域,传统金融行业在和互联网的融合下衍生出大热门互联网金融行业。互联网技术日益更替了新兴技术能力,物联网、云计算、大数据、区块链等前沿技术逐渐应用于金融行业。由此出现的网络借贷行业更是处于互联网金融的风口。但由于其门槛低、风险大等因素,自2017年起网贷平台相继暴雷,出现提现困难、经侦介入、延期兑付、老板跑路等一系列恶性行为,严重损害普通投资人利益,甚至频
学位