【摘 要】
:
问答系统在数字化时代具有重要实际应用价值,基于知识库的问答方法具有更高效和更准确的优点。现有的知识库问答方法更多地通过深度学习来展开。但是,在研究过程中发现现有的知识库问答方法存在一些问题,如难以捕获问题的全局信息、模型在训练和预测时的输出存在不一致性、现有的主题实体检测模型识别准确率有待提高等。为此,本文的主要研究工作如下:(1)针对知识库问答模型使用Bi LSTM对问题全局特征捕获不足的问题以
论文部分内容阅读
问答系统在数字化时代具有重要实际应用价值,基于知识库的问答方法具有更高效和更准确的优点。现有的知识库问答方法更多地通过深度学习来展开。但是,在研究过程中发现现有的知识库问答方法存在一些问题,如难以捕获问题的全局信息、模型在训练和预测时的输出存在不一致性、现有的主题实体检测模型识别准确率有待提高等。为此,本文的主要研究工作如下:(1)针对知识库问答模型使用Bi LSTM对问题全局特征捕获不足的问题以及模型在训练和预测时的输出存在差异性的问题,本文在基线模型BAMnet的基础上,提出基于Transformer和R-dropout的改进模型TRBAM,在问题特征提取层使用Bi LSTM和Transformer分别对问题进行特征提取,将提取的两种问题特征进行融合得到新的问题表示,使模型能够更加充分地捕获问题中的语义信息;利用Rdropout的思想,对模型在训练和预测时的不一致性进行约束,提高模型的性能。(2)针对现有的主题实体检测模型对最佳主题实体的识别准确率有待提高的问题。本文在主题实体检测模型entnet的基础上使用R-dropout对其进行改进,计算模型输出的K-L散度,对模型进行二次正则化,提高模型对最佳主题实体的识别准确率。(3)本文使用Freebase作为知识库,在主流英文数据集Web Questions上进行实验。实验结果表明,本文提出的知识库问答模型TRBAM在已知问题主题实体的条件下,相比基线模型的实验效果在主要评价指标F1值上具有提升;改进的entnet模型对最佳主题实体的识别准确率相比原模型具有提升;TRBAM模型在使用改进的entnet模型作为问题的主题实体检测器的条件下,在F1值上取得的结果与BAMnet方法以及一些其他方法相比具有一定优势,说明本文整体方法的有效性。本文基于对知识库问答模型的研究,设计并实现基于Web的知识库问答系统,该系统可以与用户进行交互,实现对用户输入的问题进行回答。
其他文献
稳态视觉诱发电位(Steady state visually evoked potential,SSVEP)是常见的脑机接口(Brain Computer Interface,BCI)范式,它是当人体收到固定的闪烁频率刺激后,在大脑后枕部区域产生的与刺激频率相关的一种EEG信号,其频率和刺激目标闪烁频率及谐波频率高度相关。由于其采集方便、信息传输率高等特点,SSVEP受到了研究人员的广泛关注。为了
随着卫星传感器的迅速发展,遥感卫星为遥感应用研究提供了丰富的遥感影像。合成孔径雷达(Synthetic Aperture Radar,SAR)图像和多光谱图像在对地监测方面具有互补的优势。其中,SAR能在各种气候条件下提供具有丰富空间细节特征的图像,但其图像缺少光谱信息。而多光谱图像属于光学图像,具有多个光谱段,但它易受大气环境影响降低了空间解析能力。因此,利用融合技术将多光谱图像和SAR图像互补
分类是一种有标签的机器学习,属于监督学习中的一种,在分类中经常会遇到类别不平衡的数据集。类别不平衡导致分类结果会偏向于多数类,对少数类的识别精度不高。现实中的数据集通常包含被错误标记的标签,这种包含错误标签的样本被称为标签噪声。标签噪声会造成决策边界偏移,降低模型的预测性能,增加模型的复杂程度。当不平衡数据集中存在标签噪声时,会给分类器造成较大的负面影响。采样是一种解决类别不平衡的方式,它通过增加
在互联网时代,数据正在以非凡的速度呈现超高速增长,如何有效地从繁杂无章的大数据中挖掘有价值的信息与知识是人工智能技术的一个重要研究目标。在粒计算领域,序贯三支决策作为三支决策思想的延伸,在处理不确定信息时起到重要作用。序贯三支决策除了引入了延迟决策,能够在信息不充分时做延迟决定,降低决策带来的损失,还具有一种渐进的思维。其通过循序渐进地获取信息来将空间的粗粒度转换为细粒度,能够很好地解决生活中的各
产前超声检查中胎儿心脏标准平面的确定对于医学超声诊断至关重要。医生获取胎儿心脏标准平面通常需要对胎儿心脏解剖学有透彻的了解和丰富的经验,对于没有经验的医生来说非常具有挑战性,对于临床专家来说是耗时的。设计一个好的分类模型定位胎儿心脏标准平面有助于提高专家的效率。目前已有的胎儿心脏标准平面分类模型都是人工设计的网络结构,网络的体系结构参数是复杂的、离散的、无序的。为了获得一个有效网络模型需要从深度、
随着国内的金融开放及科技发展,人们在投资分析时不仅仅局限于传统基本面和技术分析,基于数据和规则的量化投资的应用开始逐渐兴起。因子投资则是量化投资的一个热门研究方向,近两年,机器学习算法与多因子策略结合的方向进行了一些研究,但还远不完善,存在着策略未能充分利用因子信息、投资策略常陷入过拟合、可解释性较差等问题。本文针对现有因子筛选及策略模型中存在的问题,在现有相关因子投资研究的基础上,构建了基于独立
以兰州市某超高层建筑基础大体积混凝土浇筑中混凝土溜槽施工为例,通过基于拉格朗日法的抛物线形复合渠道的水力最佳断面法对混凝土溜槽截面优化,从而满足现场施工场地狭小、混凝土一次浇筑量大、可搭溜槽高跨比小等复杂工况,为以后类似工程提供可参考的意见。
网络编码技术利用数据包之间的关联性,允许网络中间节点将数据包编码组合后转发,打破了传统“存储-转发”模式,可有效提高数据传输的有效性。传统路由协议中节点只能被动获取编码机会且路径单一固定。机会式路由的提出打破了该局限,允许节点选择多备选节点协作转发,可有效提高数据传输的可靠性。编码感知机会路由结合了这两种技术的优势,是当前无线网络路由策略研究热点之一。本文主要工作如下:针对现有机会式编码感知路由片
我国政府对垃圾分类回收严加重视,地方政府也实行诸多强制垃圾分类的政策。垃圾合理分类可以有效地提高资源利用率,减轻环境污染的危害。虽然深度学习技术已经迅速发展,目标检测应用在广泛场景中,但查阅资料发现目标检测在垃圾检测中的应用较少。垃圾检测相比于普通目标检测有更多的目标密集排列场景,并且可供研究的垃圾数据量较少。同时,垃圾检测中大量的负样本会导致样本数量较少类别的检测结果受到抑制。本文对上述问题进行