【摘 要】
:
互联网的发展,使得每天都在产生海量数据,且数据规模不一、形式各异,而文本分类技术可以高效准确地将海量数据进行归类,方便用户获取数据。文本分类作为自然语言处理中的一项关键子任务,目前已取得了不错的成果,但大多数模型仅将文本进行向量化表示,认为文本与文本之间相互独立,在多数引文网络数据集上模型并没有取得最佳效果。因此文本首先提出了一种文本图结构化表示方法,在图中不仅考虑单词与单词、单词与文本之间的相关
论文部分内容阅读
互联网的发展,使得每天都在产生海量数据,且数据规模不一、形式各异,而文本分类技术可以高效准确地将海量数据进行归类,方便用户获取数据。文本分类作为自然语言处理中的一项关键子任务,目前已取得了不错的成果,但大多数模型仅将文本进行向量化表示,认为文本与文本之间相互独立,在多数引文网络数据集上模型并没有取得最佳效果。因此文本首先提出了一种文本图结构化表示方法,在图中不仅考虑单词与单词、单词与文本之间的相关性,还基于稀疏表示和协同表示方法将文本与文本之间的联系表现在图中,将单词与单词、单词与文本以及文本与文本之间的联系体现在图中各节点之间的边上。之后,提出了双层图卷积网络文本分类模型,将传统的文本分类问题转化成图中节点分类问题,同时研究了模型中图卷积层数对于分类效果的影响,并将模型应用在多个数据集上,在多数数据集上文本分类的效果都得到了提升,但对于规模较大的数据集,分类效果没有达到最佳。为此,本文在双层图卷积网络文本分类模型基础上添加了两种注意力机制,分别是节点内注意力机制,用于获取文本的关键特征;图上文本节点之间边的注意力机制,提取图中边的高维特征。通过添加注意力机制,模型在大规模数据集上的表现也得到了提升。本文提出的文本表示方法将文本之间的相互关系融入图卷积文本分类模型的训练过程中,通过实验验证了注意力机制对模型的影响,最终,在多个数据集上的实验结果表明,本文提出的模型对文本分类效果的提升有积极作用。
其他文献
公园作为城市中主要的绿地景观,是一个空气清新并且生态环境良好的场所,为人们的休闲娱乐以及社会交流等都提供了很大的便利。城市公园的景观环境不仅能够为大众提供娱乐休闲空间,而且还能够展现城市的整体风貌,体现其精神水平及人文文化。正是由于城市公园在城市发展以及城市居民生活中扮演着非常重要的作用和角色,因此对于城市公园的研究显得非常的重要。利用公园中不同类型的植物,可以在公园中营造出不同的景观空间,从而最
硼中子俘获治疗技术(BNCT)作为一种新型二元靶向性放射治疗技术受到了广泛的关注。与传统放射疗法相比,BNCT具有靶向性好、安全性高、杀伤性强的特点。然而,目前BNCT在应用过程中遇到了硼携带剂对肿瘤细胞特异性不高,肿瘤组织硼摄取量不足的问题。本论文设计了一种以细胞穿膜肽TAT修饰的邻碳硼烷为组装单元的纳米胶束硼携带剂。即将邻碳硼烷与细胞穿膜肽TAT相连接,然后通过薄膜水化法自组装得到Carbor
随着信息技术的迅速发展,人们对于软件功能和开发效率的要求与日俱增。程序合成旨在自动生成满足给定规约的程序,作为应对该挑战的一种重要技术,近年受到越来越多的关注。在程序合成的研究领域中,基于示例合成(Programming by Examples,PBE),也称作归纳合成(Inductive Synthesis),以用户提供的输入输出示例作为合成程序的规约,因为其简洁性与易用性等优点被应用在数据整理
随着边缘计算与5G通信技术的发展,基于边缘计算架构的自动驾驶汽车作为一种可行的解决方案,正在受到国内外学者的关注。相较于传统的计算架构,边缘计算架构通过将自动驾驶汽车大量的计算任务迁移到靠近车辆的边缘计算节点执行,从而可以有效地减少车载计算机的计算负荷,提高路网中车辆的调度效率并降低自动驾驶汽车的制造成本。然而在这种架构下,自动驾驶汽车需要将不同类型的传感器所采集到的海量数据传输到边缘计算节点,这
以有机-无机杂化钙钛矿材料为吸光层的钙钛矿太阳能电池(PSCs)已经发展了十余年,研究最广泛的MAPbI3钙钛矿类材料具有载流子扩散长度长,高吸收系数,低激子结合能,可低温溶液加工,直接带隙半导体等优点,具备良好的商业化发展潜力。但溶液法制备的钙钛矿薄膜为多晶结构,其晶界、表面缺陷以及光吸收层-传输层之间的界面缺陷制约着PSCs的性能和稳定性。因此,探讨缺陷产生内在的机理,研发有效的钝化缺陷的方法
本文给出了一种基于深度学习的偏微分方程数值方法,求解了非线性椭圆型方程、线弹性方程、四阶双调和方程。我们使用深层网络表示偏微分方程的数值解。在无残差连接和有残差连接两种结构中,我们追溯数值解的构造过程,推导了函数偏导数的更精确表示。然后我们通过变分原理得到能量泛函,加入边界项的约束,进而构造出偏微分方程的损失函数,再使用具体网络结构下函数偏导数的更精确表示替代差分方法用以表示导数,使得模型使用更少
随着高尖端电子产业和清洁能源技术的不断发展,绿色环保、节能高效的新型能量存储设备成为了科研人员攻关的目标。而聚合物基电介质薄膜电容器因其功率密度大、储能效率高、柔韧性出色等优点受到人们的广泛关注,但是目前其较小的介电常数,较大的漏电损耗都限制了其储能表现的进一步提高。为了解决这类问题,向聚合物基体中填充高介电的纳米填料、对填料表面进行有机修饰等多种方法被大量使用,虽然复合材料的介电性能因此而改善,
多视图模型由于充分利用了多个视图的信息,在机器学习的众多任务中都获得了良好的表现。越来越多的研究者开始聚焦于多视图学习。高斯过程和条件随机场由于其良好的特性在文本分类、序列标注任务中各自表现优异,但二者无法直接应用于多视图学习场景。本文针对文本分类任务提出了后验一致性的多视图高斯过程;又针对序列标注任务提出了混合神经元的多视图条件随机场。之前的工作和本文的研究都证明了多视图模型相较于单视图模型往往
随着太赫兹波在成像、通信、传感等应用领域的发展,太赫兹波的传输问题逐渐引起了人们的广泛关注。相比于在自由空间中的无线传输,太赫兹波在波导内有望实现弯曲、低损耗的稳定传输。在众多太赫兹波导类型中,空芯波导结构简单,易于制备,成本低,应用前景广阔。本论文基于相关理论设计了空芯波导结构,利用不同的聚合物管材料制备出了波导样品,并探索了这些波导对太赫兹波的综合传输性能。基于反谐振理论,设计了可以宽频带传输
异丙醇(IPA)作为重要的化工原料,在日用化工、有机合成、医药、涂料乃至于电子工业等领域均具有广泛的应用。鉴于丙酮来源广泛,丙酮加氢制异丙醇相较丙烯水合和醋酸异丙酯加氢等方法更为绿色高效、经济环保。镍基和铜基催化剂是常用的丙酮加氢催化剂,但需在低空速/高氢酮比/高压条件下才具有良好的催化性能;同时,该反应是强放热反应(ΔH=-54.9 k J mol-1),反应床层容易产生局部“热点”导致催化剂烧