基于文本图结构的短文本分类方法研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:oqo235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本分类旨在针对不超过160个字符的文本进行规律发现和自动分类,已经成为越来越重要的研究课题,同时面临短文本的稀疏性、不规范性、上下文语境缺失等挑战,分类效果有待提升。目前基于深度学习的短文本分类方法较为流行,其核心旨在利用深度学习以端到端的方式自动从文本上下文中学习词、句、文档等多级别语义特征,从而更好地分类。但此结构仍存在以下亟需解决的问题:(1)文本语义学习仅利用词上下文和词在文本中的共现,未建模文本中同一主题下长距离词的依赖以及不同文本通过共享潜在主题而存在的关联,影响了短文本高层语义学习。(2)仅包含词和文本节点的图结构不能准确表达短文本中关键语义,且各层次语义融合和抽取机制亟待完善。针对上述问题,本文开展基于文本图结构的短文本分类方法研究,其核心是通过引入主题、实体等构建异质网络来学习不同级别的高阶语义,并进一步设计层次注意力机制以捕获关键级别语义及其关联,从而更好的分类。具体研究工作如下:首先,针对现有分类方法未考虑同一主题下长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质图结构的短文本分类方法。方法首先通过Word2vec训练词的上下文语义向量;其次构建词相关性矩阵以充足的词共现信息挖掘潜在主题;最后构建以词、主题和文本为节点的异质网络(WTDHN),并采用图卷积学习节点间的高阶邻域信息。相较于基准分类模型,该方法在五个通用短文本数据集上的分类准确率平均提高1.56%,F值平均提高1.74%。其次,针对词-主题-文本异质图结构中较为关键的词语义特征表达不够充分,开展异质图结构中融入实体表示的短文本分类方法研究。该研究通过将WTDHN中关键词节点映射为知识图谱中的实体表示,构建实体-主题-文本异质网络(ETDHN)以合并实体、主题和文本等之间的语义依赖关系;在ETDHN上进行卷积操作并引入层次注意力机制以更细粒度抽取关键级别语义。最后通过随机去邻边方法在异质网络中引入适量噪声信息,增强了方法的鲁棒性。相较于基于词-主题-文本异质图结构的短文本分类方法,该方法在三个通用短文本数据集上的分类准确率平均提高3.83%,F值平均提高3.3%。
其他文献
财务资源是企业生存发展的基础,如何提升财务效率始终是企业经营的重要内容。新世纪以来,全球民航业发展迅猛,航空运输需求旺盛。各航空公司也努力抓住发展机遇,大力扩大机队规模和运力水平。但是,我国航空公司盈利能力和营运能力与世界领先航空公司相比仍有很大差距,传统财务效率分析无法准确为航空公司提高资产利用率、降低各项成本提供明确方向。因此,从财务资源投入和产出角度分析航空公司财务效率就成了必要课题,构建一
学位
建设在高原地区的高高原机场由于特殊的大气密度及地形条件,极易形成低空风切变事件,并且由于地形遮蔽及导流作用形成非对称型的低空风切变,风场变化多端,风速梯度变化大,危险系数高,同时机载气象雷达下视探测低空风切变时,地杂波分布广幅度强,严重影响低空风切变检测,威胁飞机飞行安全。目前多是考虑在均匀分布地杂波背景下检测低空风切变,而高高原机场环境下地杂波呈现明显的功率非均匀特征,导致传统空时自适应处理(S
学位
自京津冀协同发展战略提出以来,天津市政府、天津机场紧紧抓住了承接北京“非首都功能”这一历史机遇,力争把天津机场打造成北方国际航运的核心地带、国际航空物流中心,及全球航空物流重要节点和国际航空物流供应链管理中心。在此背景下,天津空港货运有限公司~1(以下具体简称TCS)约占天津机场60%货运量,其中国内出港货物占绝大多数,且TCS货站作为天津机场航空产业链的重要节点,决定着天津机场货物交通运输的衔接
学位
随着微尺度多孔结构的快速发展,小直径的冷弯焊接不锈钢管近来被用来制备力学性能优异的金属点阵拓扑结构。为了获取经真空钎焊热暴露后的圆形中空截面(CHS)在纯压缩状态下的精确材料性能,本文首先对一系列具有毫米量级外径尺寸的冷弯304不锈钢圆形空心短柱实施钎焊热处理,进而对所获得的试样进行轴向压缩测试。该试验一共涵盖了18种不同截面尺寸小直径短管,其厚径比(t/D)范围为0.023-0.201。此外,建
会议
作为交通运输体系的重要组成部分,公务航空不断突破困境,力求满足社会对快捷交通运输的需求。从公务航空发展需要出发,亟需建立一套完整的公务航空运行安全风险评估模型实现安全管理和风险把控,来降低公务航空运行安全风险水平,提高运行安全性。本文按照风险管理的基本要求分析公务航空运行安全风险因素,构建公务航空运行安全风险评估模型;通过复杂网络分析将影响因素、安全风险指标因素和事故后果进行耦合,确定各个要素之间
学位
回转体零件在工业领域上有着十分广泛的应用,在机械制造领域,回转体零件的加工生产占据很大地位,其制造精度对使用性能有很大影响,因此应在加工后采用先进的检测技术进行快速、准确的测量来保证其制造精度。双目视觉技术日趋成熟,与人工测量相比,它的速度更快,精度更高,实时性更强。除此之外,本文在双目视觉的基础上加入结构光条,更加方便地提取出图像信息。因此本文提出了一种双目视觉和结构光结合的方法来实现快速的回转
学位
根据美国国家运输安全委员会的运输航空事故数据统计,几乎五分之一的事故都与机组有关,其中超过60%的机组事故是由于飞行机组和客舱乘务两者之间沟通合作不畅、缺乏正确的领导力、团队决策失误等原因造成的。针对这一现象,许多国家都在咨询通告中要求飞行机组与客舱乘务每2年进行一次联合训练,目的是使飞行机组与客舱乘务之间更好地协作来提升整个机组的工作绩效,从而防止飞行事故的发生。因此构建飞行机组与客舱乘务联合训
学位
机场终端区通信设备逐渐增加,设备的集成化和小型化程度越来越高,高频大功率的设备有了更多的应用,使得机场终端区电磁环境更加复杂,通信设备所受到的电磁干扰也更复杂,进行干扰超标诊断和干扰来源判断显得非常重要。对于干扰问题的研究最重要的是准确定位干扰来源,以采取进一步的抗干扰措施。现阶段对于辐射电磁干扰(EMI)的近场测量已经成为了设备电磁兼容性预测试和故障诊断的重要方法之一。首先简要介绍了电磁辐射的基
学位
随着智能时代的到来,方便、快捷、智能的光电器件越来越受人们欢迎。稀土掺杂的铁电材料不仅具有良好的铁电性能,还拥有优异的发光性能,为设计新型光电器件提供了更多机会。以往对铁电铌氧化物材料的研究主要集中于介电、铁电、压电方面,对该类材料光学性能,尤其是光响应性能方面的研究相对较少。为适应未来光电技术对新型材料的需求,在传统材料的基础上,发展新的性能、探索新效应、揭示新规律对于未来光电领域集成光电器件的
学位
随着电池科技发展,锂离子电池在各个领域得到了广泛使用,在我们的生活中有着不可或缺的作用。锂离子电池的广泛应用,使得锂离子电池的运输量不断增大,其在民航运输中占据着重要地位。然而,随着运输量的增加,便携式设备中的锂离子电池所导致的安全问题不断涌现,这引发了国内外民航组织的广泛关注。由于便携式设备中锂离子电池会在各种环境与工况下使用。电池在循环使用过程中,内部电芯的热稳定性以及电化学性能会发生变化和衰
学位