基于知识增强的立场检测技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:vierilv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
立场检测任务指的识别文本对于给定话题表达的立场,区别于简单的对单个文本进行分析,需要综合话题和文本的信息进行判断。这意味着要求模型具备一定的推理能力,能够从文本对文本中所提及实体的态度以及文本中所提及实体与话题的关系,推理出文本对话题的立场倾向。然而立场检测文本较短,上下文缺失,仅仅依赖于输入中的话题和文本,难以实现这样的推理。需要借助外部知识来补充相关背景,对话题和文本进行丰富,进而帮助模型捕捉话题和文本所提及实体之间的关系。因此如何选择和引入外部知识对立场检测至关重要,本研究聚焦于引入不同的外部知识来进行基于知识增强的立场检测。本研究首先探索了基于多任务学习的立场检测。考虑到立场检测模型性能受限于有限的标注数据,本研究将自然语言处理中其他与立场检测形式或目的相近的多个任务及其语料,作为非结构化的隐式知识引入立场检测中。并提出基于关注主任务的分层多任务专家模型,使得模型在学习辅助任务和立场检测共享特征表示之外,更加重视其在立场检测任务上的表现。其次,本研究探索了基于知识图谱的立场检测。通过多任务方式引入语料,在模型内部隐式地学习立场检测推理,是一种间接的知识引入方式。因此本文提出Rel Net模型,旨在利用结构化知识显式建立话题和文本所提及实体之间的关系。模型对话题和文本中实体利用知识图谱进行扩展,捕捉话题和文本所提及实体之间的关系,并将关系分类作为辅助任务,融合到立场检测预测中。最后,本研究在立场检测任务基础上,探索了更加困难的跨话题立场检测任务,即需要判断没有标注数据的新话题下文本的立场。由于缺少新话题下的相关训练数据,外部知识的引入对于解决跨话题的立场检测尤其关键。本文首先构建一个融合新话题的当前话题知识子图,然后提出了一个融合路径编码的跨话题立场预测框架,通过长短期记忆网络对话题到文本提及实体在知识子图的路径进行编码,实现可解释的跨话题立场推理。本研究提出的各模型框架在对应的立场检测数据集上的实验结果证明了各个模型可以高效地引入或结构化的显式知识帮助模型完成立场检测任务,进一步的分析实验以及消融实验印证了模型设计的有效性。
其他文献
人类生产活动导致的石油污染对环境和生态系统构成严重威胁。在石油烃的主要成分中,芳香烃中的多环芳烃(PAHs)危害最大。微生物在降解多环芳香烃污染方面具有高效、环境友好和成本低等优势,目前虽然已经有很多可以降解PAHs的菌株被筛选分离出来,但是关于菌株对PAHs的降解机制仍有待探索。本研究首先选择了一株分离自石油源的坚强芽孢杆菌Bacillus firmus,首先进行菌株生长动力学分析,测定其对萘、
学位
为了加强交通运输的安全性,X光安检扫描仪作为一种能快速高效检查的设备快速发展,为人们的出行提供了安全的保障。但是X光安检扫描仪需要配置相应人数的安检工作人员来进行操作和引导,这大大增加了交通运输系统的人力和物力成本。安检工作人员首先需要进行严格和系统的培训,对于不同情况的X光扫描图有明确的判断。但是目前的暴恐物品识别算法主要存在以下两个问题:(1)在越深的卷积神经网络中,图像的特征图分辨率会越来越
学位
传统的方式治疗癌症有许多弊端,因此设计安全高效的靶向药物将给癌症患者带来新的希望。药物伊马替尼作为中国治疗慢性粒细胞白血病(CML)最早上市的小分子靶向药物,它开启了一个治疗此类疾病的新篇章。第一代药物伊马替尼对于大部分的CML患者有一定的效果,第二代、第三代药物虽然治疗效果优于伊马替尼,但是副作用较大。因此,设计更安全更高效治疗CML的药物是很有必要的。以药物伊马替尼为先导化合物,对其结构改造期
学位
近年来,随着深度学习技术的发展,知识图谱问答任务取得较大进展,单跳问题的问答较为简单,因为它只涉及一个三元组,但当问题变得复杂,涉及多个实体的比较和推理时,机器尚不能很好地解答。如何让机器像人类一样学会推理,从而处理复杂问题,是当前的一个研究热点和难点。基于上述问题,该论文使用基于推理路径生成和阅读理解方法以及多任务学习方法来实现知识库问答,研究内容分为以下三个方面:1.基于推理路径生成的知识库问
学位
PN17-1是在伊马替尼结构基础上,通过骨架跃迁获得全新母核结构而得到的一类抗肿瘤候选药物,PN17-1是针对c-KIT突变体靶点的新一代酪氨酸激酶抑制剂,主要用于耐药胃肠道间质瘤(GIST)的治疗。前期药理结果显示,PN17-1能够显著抑制GIST1219、Ba/F3-TEL-KIT细胞和c-KIT突变体激酶的活性。目前,PN17-1处于临床前研究开发阶段,本课题主要进行了PN17-1的理化性质
学位
连翘为木犀科植物连翘的干燥果实,广泛分布于我国山西、河北等地,是我国的传统中药,具有“疮家圣药”之称,其主要成分是连翘苷及连翘酯苷A,具有抗菌、抗炎、抗病毒等多种药理作用。本课题主要内容如下:本课题利用无水乙醇对连翘果实进行粗提,分离纯化得目标化合物连翘苷(5.2g)、连翘酯苷A(244 mg)、连翘酯苷B(102 mg),连翘酯苷D(93 mg)连翘酯苷E(197 mg),为接下来开展的研究保证
学位
世卫组织国际癌症研究中心公布了最新的2020年全球肿瘤数据报告,结果表明,恶性肿瘤依旧是威胁人体健康的重大疾病。研究表明:c-Met的过度表达与人类的许多癌症相关,其通路的异常激活会导致肿瘤转移、侵袭、复发。因此,c-Met已经成为癌症治疗领域极具有吸引力的靶标。本文在对经文献报道的TypeⅡ型c-Met激酶抑制剂的构效关系进行归纳总结的基础上,根据II型c-Met抑制剂的构效关系,以4-苯氧基吡
学位
随着在线教育的兴起,互联网和教育结合在一起的教育模式被大众认可,不断的有新的教育平台推出,同时在线教育平台中积累了大量的资源,现在的在线教育平台主要存在如下问题:现有的平台老师主要通过课程讨论区解答学生疑惑,这种形式使得线上教学效果较差。线上教学中老师可能针对成千上万个学生,教育平台仅仅依靠人,很难满足教学需求,所以需要研究如何在在线教育平台中有效的利用机器大规模的信息检索能力,虽然已经出现了很多
学位
中心度是一类描述图上顶点重要性的度量工具,此前已提出的多种中心度大多数都忽略了图数据的不确定性。在本文中,我们形式化定义了不确定图上的接近中心度(closeness centrality),并提出了不确定图上的批接近中心度估计问题(BCC),即在不确定图上计算一组特定顶点的接近中心度。我们提出了三种基于采样的算法——MS-BCC、MG-BCC和MGMS-BCC,来近似计算这组顶点的接近中心度。在根
学位
<正>一、借助海报,回顾批注角度师:大家一起看一看他们的海报,听一听他们的介绍。生:我的海报画面以铅笔画为主,上面写的是“不动笔墨不读书”。批注的角度一是启示,就是读了句子或者段落后,受到的启发;二是体会,就是结合文章内容写出自己的想法;三是提问,针对某一段落、句子等,提出自己的问题;四是写法,就是针对作者用的修辞手法等来进行赏析。
期刊