基于信息交互的中文文本匹配方法研究与应用

来源 :东莞理工学院 | 被引量 : 0次 | 上传用户:jay2722927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配是自然语言处理的研究方向之一,很多自然语言处理任务都可以抽象为文本匹配问题,例如文本去重、问答系统等。传统的文本匹配方法主要采用的是基于词汇重合度的匹配运算,无法理解文本语义的问题。基于深度学习的文本匹配运算可以有效提高文本匹配的准确率,但是需要处理大量的数据,需要较长的运算时间。预训练模型BERT的出现推动了自然语言处理的极大进步,在多项任务中取得了显著的效果,但耗费资源较大,对算力也有比较高的要求。在教育领域中的专业名词以及问题之间的区分度不高,存在一定的语义多样性以及文本结构性问题,对文本匹配算法的要求较高。为解决上述问题,本文采用基于信息交互的文本匹配方法,提出了一种面向信息交互的中文文本语义匹配模型(Information Interaction Oriented Chinese Text Semantic Matching Method Model,IISM)。该模型以文本检索为基础,考虑到文本自身的上下文关系,使用自注意力机制提取深层次语义表示。同时采用卷积神经网络提取文本的结构信息,并且为了使文本匹配到对方低层次的语义信息,提取文本词粒度和字粒度的信息,将这三种语义信息进行交互得到新的语义矩阵以后使用Bi LSTM进行特征采集提取。之后采用预训练模型BERT结合外部语言知识库对模型的词向量训练方面进行改进;采用协同训练算法使模型的训练性能更加稳定;使用粒子群优化算法优化卷积神经网络超参数。本文提出的模型在语义信息交互方面具有优越性,能够解决中文文本中存在的语义多样性和文本结构性问题。为了验证本文提出的方法有效性,在中文文本匹配数据集上进行了实验,同时测试了目前常用的几种文本匹配模型。实验结果表明,本文提出的基于信息交互的中文文本匹配方法在准确率和精确率上都有一定的提升,获得了很好的效果,对智能学习平台的改进优化有一定的应用价值。将该方法应用到实验室的人工智能教育产品研发项目中的智能答疑系统中,可以提升智能答疑系统的性能。
其他文献
进化算法是求解最优化问题的全局最优解的一类重要方法,由于其广泛的适用性和良好的求解性能而广受关注。然而,进化算法领域存在两个重要的问题,一个是如何更好地平衡全局搜索能力和局部搜索能力,另一个是进化算法一般依赖于数值比较来论证其有效性,但对于如何进行数值比较却缺乏系统的研究。针对第一个问题,本文探索了同一个算法在两层搜索空间协同搜索的新方法,该方法有别于借助局部优化算法来加强局部寻优能力的传统策略。
学位
目前我国市场处于高新技术领域快速发展的时期,诸多高新技术企业为了实现企业实力、技术能力的提升,纷纷开启并购模式。尤其是实力较强、在某一细分领域市场占有率较高的企业,会通过并购方式将自身业务拓展到同领域的更广阔的市场,并且更加巩固自身的优势技术或者产业。但是,企业并购是把双刃剑,能否在并购后实现经营协同,是决定企业并购成败的关键。本文以石基信息公司为案例,研究高新技术企业在相同领域的并购行为以及并购
学位
社会经济的快速发展导致区域土地利用格局的剧烈变化,从而影响非点源(nonpoint source,简称NPS)污染输出负荷,威胁区域水环境安全和居民健康。因此,考虑生产活动等社会经济因素影响,预测模拟区域土地利用变化,评估NPS污染输出负荷及其分布特征,并在此基础上,提出NPS污染管控目标,开展区域土地利用结构优化研究,对区域水环境质量提升和社会经济的可持续发展具有重要意义。然而,土地利用变化和N
学位
随着互联网技术的快速发展和数据存储能力的大幅提升,越来越多的车辆移动轨迹数据集被采集,如何分析数据集中的车辆的移动轨迹规律是一个难点。针对轨迹数据集,出现了一些分析车辆的移动轨迹的方法,目前广泛采用的是机器学习的方法预测车辆的移动位置,不过该类方法存在一定的不足之处,例如利用机器学习的方法预测车辆轨迹,该方法容易受到训练集的影响,如果数据集有数据缺失或者数据不精确的情况,可能会导致预测的结果出现偏
学位
随着生物信息学的发展,现代社会对蛋白质(Protein)功能的理解与研究需求日益迫切,大多数蛋白质通过与其他蛋白质相互作用来执行其功能,因此对蛋白质相互作用(Protein-Protein Interactions,PPIs)的探索也已经引起了广泛关注。目前,PPIs数据中的已知蛋白质互作用关系密度非常低,无法满足生命科学实际应用的需求,大量的蛋白质互作用关系有待发掘。但由于生物实验时间耗费长和成
学位
刑罚附随后果是指由法律规定的,因相对人受到刑事处罚的法律地位而对其课予的法律后果。在我国各层级的法律规范之中,存在着数量巨大、种类繁多、内容丰富的刑罚附随后果,同样潜存着极大的侵害受过刑罚之人的权利和尊严的危险性。本文着眼于法律层级以下的规范中出现的刑罚附随后果,对于法秩序而言,其具有“人人可设”的泛化趋势,且对于诸多行政法的基本原则均有突破;对于相对人权益而言,其基于受过刑罚之人群具有普遍危险性
学位
非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术是第五代移动通信系统(the 5th Generation Mobile Communication System,5G)的关键技术。NOMA系统通过采用叠加编码技术在很大程度上提高了信道的频谱效率。但是,在同一信道上叠加大量的用户会造成较大的解码时延与错误传播。本文研究NOMA下行信道上的用户选择问题,以
学位
随着生态文明建设以及区域精细化管理的提出,区县作为落实国家生态安全战略的基本单位引起了广泛关注。但由于区县尺度数据尤其是环境污染排放数据较难获取,现有的生态安全研究大多集中在城市及以上尺度研究区域而未能探究城市内部特征,亦未建立成熟的区县生态安全评估体系。又因不同尺度上的生态安全具有关联性,下层尺度生态系统的稳定或风险也能促进或影响上层尺度生态系统的稳定,因此需探索并建立区县尺度生态安全研究体系,
学位
电化学技术具有水质适用范围广、反应条件温和、可控性强和工艺灵活易于自动化等众多优点,在难降解工业污水处理领域具有广泛的应用前景。本研究开发了兼具催化还原硝酸盐和活化过硫酸盐活性的双功能Ti@CuO-Co3O4电催化膜阴极材料。基于该电极材料构建了新型的Ti@CuO-Co3O4阴极/过硫酸盐耦合污水处理体系,并用于处理含有大量硝酸盐以及难降解有机污染物的模拟养殖场生化出水、焦化尾水以及垃圾渗滤液生化
学位
城市绿地可达性及其公平性可揭示居民能否方便、平等地享用城市绿地所提供的各项服务,作为衡量城市绿地生态服务功能的重要指标,对城市空间规划具有指导意义。聚焦城市化进程中城市空间增长对绿地可达性及其公平性的影响,本研究以快速城市化背景下绿地格局变化显著的广州市为例,依次开展了如下研究内容:首先,构建城市绿地可达性度量模型,并采用基尼系数对其公平性进行评价;其次,针对城市扩展格局中广泛存在的空间自相关现象
学位