面向历史科目的问答技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenhuaxys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能在许多方面取得了突破性的成就,因此越来越受到人们的关注。自动问答系统就是人工智能中的一个很重要的分支,也是自然语言处理领域中的一个值得长期研究的目标。现有的问答系统通常可以分为基于检索的问答系统和基于知识库的问答系统,这两种系统在回答问题时都需要事先储备一些相关的背景知识,只不过知识库中存储的都是结构化的易于理解的数据,而基于检索的问答系统通常包含大量的互联网文本,因此在回答问题时都会通过相关的查询产生若干的候选答案,接下来就需要计算每个候选答案与问题的相关程度,从而去除不相关的候选答案,最后得到问题的最佳答案。本文主要研究了面向历史科目的相关问答技术,包括问题分类、问题成分抽取、以及对问题候选答案的置信度排序问题。在得到一个问题之后,首先需要对问题进行分析以构造相关的查询,然后经过查询得到若干的候选段落,最后对候选段落中的句子进行置信度排序从而得到简短、准确的问题答案。本文尝试将深度学习的方法应用到问题分类、问题成分抽取和答案置信度排序中,具体研究内容如下:1.本文建立了针对历史科目的问题分类语料集和问题成分抽取语料集,将历史材料题进行分类并识别出问题中的关键要素。另外,本文建立了用于历史科目答案置信度排序的数据集。2.构建了基于深度学习的问题分类模型,并且使用了传统方法SVM与其进行对比。实验结果表明,深度学习法明显优于传统的方法,其中CNN模型取得了最佳的效果,达到了91.08%的Micro-F1值和86.80%的Macro-F1值。3.使用CRF模型和LSTM-CRF模型分别对问题进行了问题成分抽取实验。实验结果表明,传统的CRF模型在小规模语料的情况下效果是优于深度学习方法的,达到了88.51%的F1值。4.构建了基于深度学习的答案置信度排序算法,讨论了在使用CNN、LSTM在答案选择上的效果,实验表明,LSTM模型优于CNN模型,并且本文基于不同置信度计算方法以及使用不同的损失函数对答案置信度计算的影响进行了讨论,并进一步提出了调和余弦相似度和欧几里得距离的置信度计算方法,实验结果表明,使用调和后的置信度计算方法和合页损失函数取得了最佳的效果,其中MAP和MRR值分别为0.4320和0.6120。
其他文献
本体映射是解决语义Web发展瓶颈的关键技术。但是,随着语义Web的发展,出现了一类概念数目庞大,概念之间关系复杂的大规模本体。由于大规模本体和普通本体在所包含的实体数目
学位
随着近年来Internet和计算机网络的快速发展,网络安全问题越来越成为人们关注的焦点。其中一个主要的问题是如何有效地控制用户对网络的各个组成部分以及资源进行访问。显然,
随着网络技术的不断发展,越来越多的人将他们的空余时间花在了英特网上。目前有一大批用户使用英特网观看在线视频,所以流媒体视频成为了传播丰富信息的主要途径。CDN和P2P是
图像融合的目的是在同一场景下得到的多幅图像特征信息加以综合,生成一个新的有关此场景的图像。融合的图像为观察者提供比单一传感器得到的图像信息更为可靠准确,正是因为图
近年来,人脸识别技术越来越受到重视,已经成为计算机视觉、图像分析和理解中应用最成功的技术之一。本文系统的研究了基于嵌入式隐马尔科夫模型的人脸识别方法。完成的主要工作
女书是世界上最具性别意识的文字,这种由女性创造、女性使用的文字从文化层面上反映了女性的集体智慧。它是唯一尚存的不属于某个民族、不依托某种宗教的按性别划分的女性文
应用层协议识别和还原技术广泛应用在网络安全监控系统、入侵检测及其他网络控制系统中。然而,网络应用的不断发展和新的应用层协议不断产生,对协议的识别和还原技术提出了更
随着硬件制造技术和无线网络技术的不断发展,无线通信在生活中的很多方面都得到了应用,例如无线传感器网络、射频识别RFID等领域。伴随着无线通信的广泛应用,在给人们带来了
高校评教是高校教育教学管理工作的重要组成部分,是对教学活动过程进行考察的有效途径,它不仅对教学起着调节、指导、控制和推动作用,而且是评价教师教学工作成果的重要手段