基于图网络的结合标题和正文的中文文本分类研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:ec54lulu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域中最基本的任务之一,在生活中有广泛应用。深度学习方法在该领域的不断发展,已经取代了传统机器学习方法,其自动提取特征,将特征提取和分类融合进行端到端学习,取得了很好的分类性能。但是文本结构包括逻辑结构和组织结构,文本的组织结构包括字—词—句三个层次。目前所有的深度学习模型基本都针对文本组织结构进行创新和改进,未考虑文本的逻辑结构。文本的逻辑结构包括标题和正文信息,标题句子短,属于短文本,但是反映整篇文本的核心内容,正文一般大于2000字,属于长文本,目前主要的方法均是将标题和正文直接连接起来,作为一个文档来进行文本分类,忽略了标题虽然短,但包含的信息量更准确更充分的特性。本文针对该问题,开展了以下两方面工作:首先将新闻文本分为标题和正文两个部分,分别抽取特征。针对正文文本将词进行向量表示后,利用CNN/LSTM抽取出正文文本的特征表示;针对标题文本构建文档—词的图结构,然后将正文文本特征作为文档节点的特征引入到标题构建的图结构中。最后通过图卷积网络模型学习融合标题和正文信息的嵌入特征表示,并进行文本分类。并将该模型与Text CNN、Bi LSTM、Bi LSTM-attention、LSTM-CNN模型进行对比,在THUCNews数据上研究表明,该方法取得了改善了分类效果,证明了该模型的有效性。第二为了进一步提升模型性能,针对以上模型未能很好提取标题特征,提出引入主题和注意力机制来解决标题语义稀疏性。该模型利用标题文档获取潜在主题,取排序在前的n个主题作为标题的附加信息,并根据文档、主题、词三类节点构建异质图。考虑不同类型邻居节点以及不同的相同类型邻居节点对当前节点的贡献度不同,引入双层注意力机制,进行加权求和来表示当前节点,提高分类效果。在THUCNews数据上研究表明,该模型进一步提高了文本分类结果。本文同时考虑标题和正文对文本分类的贡献,设计模型,对标题和正文分别进行特征提取并融合,最后进行分类。实验结果表明本文提出模型进一步提升了分类效果。
其他文献
推荐系统往往面临着数据稀疏和冷启动两个问题。为了缓解数据稀疏性和冷启动问题所带来的不良影响,本论文使用知识图谱来提供辅助信息,帮助推荐系统在数据稀疏和冷启动的情况下也能得到良好的推荐效果。知识图谱中的信息以图网络结构的方式相互联系,使用起来比较困难,为了更好地使用知识图谱中的有用信息,本论文尝试寻找有效的手段去充分利用知识图谱,从而辅助推荐系统更好地运行。总的来说,本论文的工作主要包括以下三方面内
学位
近年来,基于声学信号的自动语音识别技术的识别效果已经有了很大提升,但是在一些复杂的实际应用场景中,其性能会有大幅下降,或根本无法使用,如在养老助残、高噪声、隐私保护、外太空等场景中。而本文所研究基于非声学信号的无声语音识别(Silent Speech Recognition,SSR)则没有相关限制,在众多领域都能有广泛的应用前景。本论文围绕基于面部表面肌电信号和唇部运动图像的无声语音识别方法及其融
学位
近年来,深度强化学习在不同产业应用中取得了很大的成功,特别在游戏领域,通过深度强化学习算法训练的非人类玩家在各方面都有超过人类玩家的表现。在机器人运动控制的深度强化学习研究中,多机器人协同作业的深度强化学习研究是未来发展无人系统的核心内容。但目前多无人系统运动控制的深度强化学习研究面临状态和行为空间维数高、状态信息误差大以及样本量少的问题,为解决这些问题科学家提出了融合先验知识和虚实结合等策略的机
学位
随着科技迅速的发展以及智能手机的广泛普及,人们的生活已经离不开移动应用程序。然而移动应用程序随时都会访问用户的个人隐私数据,这会对用户的个人信息安全造成侵害。如今世界各国的用户和政府开始关注个人隐私信息的保护,要求移动应用程序必须提供隐私政策供用户去阅读,隐私政策作为移动应用程序服务提供商向用户展示他们是如何收集、使用、披露和管理隐私数据的文本,其冗长且难以理解,用户们通常选择忽略。本文首次提出以
学位
本文通过对老虎沟门地区土壤地球化学异常特征进行分析,发现Au、Ag、Pb、Zn是区内的主要成矿元素,而Bi、Sb、Mo等是重要的成矿伴生元素。区内各元素土壤地球化学异常套合较好,结合地质特征圈定了6个综合异常区,综合异常区的展布及异常浓集中心与韧性剪切带、蚀变破碎带、石英脉等密切相关。经工程验证,Ⅰ号综合异常区石英脉内发现两条金矿化体,Ⅳ号综合异常区韧性剪切带内发现金(锌)矿化体、Ⅵ号综合异常区石
期刊
近年来,许多深度强化学习算法被提出,并且成功地应用在了各种时序决策领域中。然而,深度强化学习算法仍存在一些尚未解决的问题:在探索空间巨大,奖励信息较为稀疏的任务中,智能体很难探索到有效信息;数据利用率不高,训练时间长,难度大;对于超参数设置敏感;无法引入外部知识等问题。与智能体在学习策略时的随机探索不同,人类在处理任务时大多会依据相关知识及经验,在路径搜索方面更具有方向性及优势。因此,越来越多的工
学位
风格迁移是一个图像合成问题,其中一幅图像的内容与另一个图像的风格合成新的图像。风格化的图像或视频在内容结构上是内容图像的展现,在风格展现上则是以艺术绘画的形式。风格迁移结果的评价指标包括效率、灵活性、质量等。效率是指每个风格化结果的产生所消耗的时间,灵活性是指训练的模型可以处理的数据量,质量则是从风格信息出发,以不同的角度来评估产生的结果。本文主要针对图像和视频风格化的结果质量进行深入研究,从结果
学位
随着人类资源短缺问题日益突出,越来越多的国家把目光投向占地球表面面积71%的海洋。研究未来学的科学家把21世纪作为海洋经济世纪。“谁控制了海洋,谁就拥有世界”。人类亟需了解海洋,目前对海洋的信息采集大多运用航空遥感、卫星遥感、海洋调查船、海洋台站和海洋数据浮标、海床基自动观测等手段,还无法对海洋中乃至海底的情况进行有效监测,因此需要建立一个高鲁棒性的水下传感器网络对水下环境实时监测。本论文首先针对
学位
俄乌冲突作为最近发生的一场“混合战争”,现实空间的局部冲突与网络空间的舆论对抗高度融合,舆论战体现出影响战争进程的特殊能力。梳理俄乌冲突在战争进程与战果、人道主义与行动正义、大规模杀伤性武器、国家元首形象等多个层面的具体舆论交锋情况,可以看到舆论战正在向全球性扩散、全时空延展、全民性卷入升级,值得媒体从业者高度关注。
期刊
对华舆论战是美国在中美“全面竞争”背景下对华政策的一项重要内容,也是美国应对中国崛起的一项重要举措。美国对华舆论战就主要以对华的舆论攻击、舆论攻势、媒体操纵和思想渗透等方式展开,旨在以美国的意识形态、西方价值观和美式民主为核心,在国际上建立反华民主联盟,攻击中国的政治体制、诱导中国的公众、扰乱中国社会经济秩序、影响中国的战略行为。为此,美国在增加着资金的投入、加快着媒体平台的建设、增设着针对中国的
学位