融合语言知识与深度学习的文本蕴含识别及其应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Hawk8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的不断发展,自然交互不断深入到人们生活,智能音箱,智能家教,智能搜索,智能客服等一系列产品不断产生。文本蕴含识别是自然语言理解任务中的一个基础又核心的任务,能增强问答系统理解自然语言的能力,直接的应用是能进行知识验证,相比自然理解中的意图理解,文本蕴含具有的常识和逻辑推理更具挑战,在机器阅读,自动答题,自动评分上均有直接应用。随着深度学习和神经网络的发展,同时得益于大规模数据集SNLI的发布,基于神经网络的文本蕴含识别的模型层出不穷,主要分为两大类,一类是基于句子编码的文本蕴含模型,一类是基于交互注意力机制的文本蕴含模型。文本主要关注基于交互注意力机制的文本蕴含模型。另外目前最新的文本蕴含模型也存在词对推理能力较差的问题,例如目前系统无法针对常识中的反义词,上下位词的词对关系进行识别,因此文本主要是将人工知识引入到文本蕴含识别模型,来改善这一问题。首先,我们从三个角度获取词对知识向量,目前主要是在如何表示一个词,很少有人关注如何表示一个词对,而词对的表示对文本蕴含识别有重要的作用,我们首先尝试基于文本特征的词对关系分类,想用词对在上下位词,同义词,反义词的类别分布来表示词对关系,之后我们尝试了知识图谱表示工具TransR,希望实体向量和关系向量的相互关系能帮助我们学习到更多的信息,最后我们专门针对文本蕴含推理中的反义词和同义词进行了建模,这样我们得到了带有词汇关系知识的词对向量。然后我们获取的三种知识向量的特点将知识向量引入到词对齐和注意力机制的部分。在特定数据集下,相比经典模型发现引入反义词向量能有较大的提升。其次,我们针对现有的中文文本蕴含数据集,针对中文的信息量大以及可能存在分词错误的问题,通过引入字特征和依存分析特征,又结合了目前流行的上下文相关向量,在中文蕴含识别数据集得到了提升。最后,我们尝试将文本蕴含技术应用在慕课场景下的短文本评分任务中,具体是结合问题和问题对应的标准答案,来判断学生回答的重要性,结合文本匹配数据集和文本蕴含数据集,构建的文本匹配器去判断问题和学生回答的匹配关系,让学生回答和标准答案来判断蕴含关系,两部分联合训练以共同构建了评分模型,在评测数据集上取得了较大提升。
其他文献
Kelch样环氧氯丙烷相关蛋白-1(Keap1)-核因子E2相关因子2(Nrf2)/抗氧化反应元件(ARE)信号通路是细胞氧化应激反应中的关键通路,其调控的下游Ⅱ相代谢酶和抗氧化蛋白/酶在细胞
高新技术产业的发展水平更是代表本国的先进生产力、经济发展水平,最终决定国家的综合国力。所以各国政府尤其是发达国家重视支持产业结构调整,不断增加对高新技术产业的投入
目前,我国现存职业经理人激励机制存在着薪酬分配与管理不合理、实行股权激励制度受限等问题。构建我国职业经理人激励机制,应完善股权激励制度和经理人市场的竞争机制及评价
随着当前我国经济的快速发展,教育事业也得到了广泛的关注与重视。在教育中起到基础性作用的主要是小学教育,其中尤为重要的当属语文教育.因此教育工作者在小学阶段应当重视
紫杉醇是一种临床应用广泛的广谱抗肿瘤药物,其独特的阻碍微管蛋白解聚的作用机制使其对多种实体瘤具有良好的疗效。但由于紫杉醇的水溶性极低,早期上市的传统制剂采用了高浓
农村金融风险的财政化是我国现阶段农村金融体制改革的一种必要的制度安排,我国农村金融风险的财政化具有典型的转轨特征。从积极的角度看,农村金融风险的财政化可以缓解农村
神话传播的过程中起到了举足轻重的教育作用。本文拟从尚德精神、反抗精神及创造精神等几个方面对中国神话的教育功能进行讨论,兼论基于以上几点反映出的中西神话的教育差异,
内蒙古是位于中国北部边疆的少数民族地区。在这片辽阔的草原上生活着以蒙古族为主,达斡尔、鄂温克、鄂伦春等少数民族。早期生活在这里的人们为了适应四季的变化采用集体游
备课是上好课的基础,也是语文教师专业成长的需要,研究名师的备课有利于年轻教师学习名师经验,提高课堂教学效率。袁瑢、斯霞、霍懋征是我国三位优秀的语文特级教师,被誉为中国小学语文教师的“三面旗帜”。她们在长期的教学实践中,通过总结和反思形成自己独特的教学思想和教学风格,为语文教育做出了积极的贡献,对当下及以后的语文教学有着重要的指导和借鉴意义。将三位教师的备课艺术进行比较研究,有利于我们学习她们的教学
<正> 本文报导了澳大利亚某一教学医院,自1957年至1973年35例纵膈神经原性肿瘤。并复习了有关文献50篇,对各种神经原性肿瘤作了详细讨论。雪旺氏瘤是本组最常见肿瘤,共23例,1