【摘 要】
:
随着信息科技的发展,网络中的数据规模越来越大,这些数据给现有的检索系统带来了挑战,如何从驳杂的数据信息中检索到准确的答案越来越受到关注。问答系统作为检索系统的一种高级形式,能够对网络上海量的文本数据进行分析检索并返回给用户简洁而准确的答案,已成为了一项新的研究热点。问题分类是问答系统研究的一项基本任务,其精度直接影响问答系统的性能。目前问题分类任务主要面临以下问题:一方面是数据集中问句字数较少,存
论文部分内容阅读
随着信息科技的发展,网络中的数据规模越来越大,这些数据给现有的检索系统带来了挑战,如何从驳杂的数据信息中检索到准确的答案越来越受到关注。问答系统作为检索系统的一种高级形式,能够对网络上海量的文本数据进行分析检索并返回给用户简洁而准确的答案,已成为了一项新的研究热点。问题分类是问答系统研究的一项基本任务,其精度直接影响问答系统的性能。目前问题分类任务主要面临以下问题:一方面是数据集中问句字数较少,存在语义特征信息表现不足的问题;另一方面是待分类数据大多为自然语言问题形式,存在着口语化和模糊化的特点,训练出的模型分类效果不佳;此外,现有的问题分类研究成果多集中于英文问题分类上,中文问题分类精度值极少能够达到相当水平,仍然有着极大的研究空间。基于此,本文主要从以下两个方面来展开研究:(1)针对问题文本局限于字数较少、语义特征信息表现不足,导致词嵌入阶段难以表示出较深层次的语义信息的问题,进行了相关文本表示方法的研究,提出了一种基于翻译模块的文本信息扩充表示机制。这种文本表示结构利用谷歌翻译API实现文本翻译扩展的目的,同时采用表现极佳的预训练模型ERNIE和BERT分别对中文语料和翻译语料进行文本表示。实验结果表明,使用该方法进行文本表示后进行分类,取得的分类精度比使用传统word2vec方法、单独使用ERNIE或BERT方法更高。(2)针对目前的分类方法存在训练困难、分类效果不佳的问题,本文利用基于特征融合的中文问题分类方法进行问题分类。一方面通过在卷积神经网络和双向长短时记忆模型中加入highway network“控制门”结构,缓解因模型层次较深造成的特征提取困难导致分类精度不高的问题;另一方面,加入DCU(Dactical Composite Units)结构减少运行时空间和时间的消耗。通过与基线模型的对比实验验证了该方法的有效性。在探究模型的基础上,搭建了中文问题分类系统原型,将本文方法应用到实际系统中。通过系统的中文问题分类功能模块实现对中文问题的自动分类。
其他文献
增强现实是以三维注册、虚实融合与人机交互为基础,实现虚拟物体和真实场景相互融合的技术。增强现实任务的核心问题是对现实场景中的物体进行准确、快速地识别和跟踪,以便将虚拟物体准确地放置在相应的位置上。本文针对增强现实中的三维注册技术进行研究,主要采用基于深度学习的方法对目标检测和位姿估计算法进行了研究与改进,提出了一个鲁棒性强且能满足实时需求的物体识别系统,本文主要贡献如下:(1)针对传统目标检测模型
随着计算共形几何的快速发展,得益于其对复杂曲面变形分析的处理能力,这给了我们将它运用到软体机器人曲面变形分析领域的灵感。针对软体机器人曲面变形的几何形状的非线性,进而导致在其变形过程中无法准确的对其进行度量,以及准确的描述,于是以计算共形几何为基础,引入Ricci流理论和计算曲面共形模的方法,将曲面形态变化问题转为曲面黎曼度量变化问题,进而建立数学模型对软体机器人的曲面变形进行定量描述。首先根据曲
物联网时代的到来,产生了海量数据,利用机器学习对其进行数据分析,可以从历史经验中提取相关信息,使其产生知识,并利用这些知识做出新的决定。在数据分析领域,技术人员要根据指定数据集构建合适的机器学习模型是一件非常复杂且耗时的事情,在此过程中需要在不同阶段选择合适的算法并不断调整优化算法参数,往往需要多次探索才能得到最终结果,对技术人员有很高的专业背景要求。针对于数据分析领域中算法选择难、调优难的问题,
近年来,物联网的发展日新月异,并在各个领域的应用场景下产生了实际的作用。伴随着机器学习算法的飞快发展和光伏硬件的不断更迭,使得光充能物联网体系有了更大的优化空间。因此,如何通过合适的模型降低网络能耗,延长网络寿命成为了可充能物联网领域亟待解决的问题。现有光充能物联网研究通常存在如下欠妥之处:1.现有光充能预测算法模式单一、忽略了小型传感器节点易受环境影响的因素,导致预测算法准确度降低。2.现有光充
地震是一种巨大的自然灾害,给人类社会的生命财产安全带来了极大威胁,能够提前预知地震的发生并做好相应措施是十分有必要的,因此地震预测是一项非常重要的任务。一直以来,地震预测的相关专家一直在探索更为准确的地震预测方式,他们也产生了很多流派,但是这些方法都存在以下缺陷:首先地震数据的获取较为困难,其次传统方法只能预测地震一个维度的信息,例如震级或经纬度,预测信息缺少完备性。针对以上这些问题,本文提出了一
互联网技术的发展推动网络购物蓬勃发展。越来越多的商品信息被上传到网络上,用户在面对数以亿计的商品往往会无法一下子明确自己的购买意愿,这对于商家以及用户都是一种损失,商家有可能错过对自己商品有隐性需求的用户,用户则会在浏览大量商品的过程中浪费大量的时间。通过研究个性化推荐能够在一定程度上解决上述问题。在推荐算法计算过程中,相对于更为稀少的显示反馈数据,用户的隐式反馈数据更加容易获得,数据量也更大。但
氧化铝原矿浆制备作为拜耳法生产氧化铝工艺流程的第一步,其制备的原矿浆是后续工序的原料,原矿浆的合格率最终影响到氧化铝的质量和产量。因为氧化铝原矿浆成分的化验结果存在大滞后性,通过预测原矿浆成分调节制备过程的配料量有着必要性和重要意义。本文研究了氧化铝原矿浆成分预测模型以及实际应用,具体内容如下:(1)对采集到的国内某铝厂氧化铝原矿浆制备生产原始数据进行可视化展示,分析数据集各参数统计量,并进行数据
随着网络技术的快速发展和互联网使用成本的降低,网民数量正逐年增加,越来越多的人倾向于在网络平台发表如商品评论、热点话题评论等大量带有情感色彩的文本信息,分析这些主观性文本可以更好地理解用户的情感态度,具有一定的商业应用价值。如何从海量的非结构化文本中挖掘出有价值的信息成为研究的热点之一。情感分析作为自然语言处理的子任务,旨在从文本中分析出人们对于某个实体或属性的情感倾向。传统的粗粒度级情感分析只能
随着开源社区的出现和飞速发展,越来越多的软件选择了拥抱开源,基于开源代码的软件开发逐渐成为新的软件开发生态。然而,开源软件在版本迭代中较少进行重构活动,导致软件结构越来越复杂,软件质量也被侵蚀,给基于开源代码的软件开发带来一定的困难。不仅如此,可供软件开发人员重构的功能往往来自多个不同体系结构的开源软件,如何快速地从中重构出所需功能是软件重构亟需面对的问题,所以开源软件重构是软件重构技术中一个重要
随着云计算、物联网等技术的不断发展,各种形式的数据不断涌现,大量的数据服务也应运而生。传统的“请求/响应”的数据服务模式限制了服务的响应速度和自动化程度,已经无法满足各领域智能化和信息化建设的需求。主动服务是无需人为驱动、能够自动根据逻辑判断提供的数据服务,其出现打破了传统数据服务模式的局限。为了实现主动服务中逻辑的自动判断,本文对面向主动服务的情境认知算法进行研究。主要的工作有以下三点:1)为了