基于深度学习的水稻知识智能问答系统理论与方法研究

来源 :沈阳农业大学 | 被引量 : 0次 | 上传用户:xixiaoqiqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术向农业生产领域的渗透,农业数据呈现出爆发式增长。农业科技信息服务平台是一个专业提供农技问答、专家指导、在线学习、成果速递、技术交流等的综合性服务平台,其中农技问答社区在农户和农技人员的技术交流,以及用户获取农业生产问题的解决方案中发挥着重要作用,但由于农业文本数据的高维性、稀疏性和专业性,依靠人工筛选特征和浅层学习模型对农业文本数据进行管理效果并不理想,难以挖掘农业文本深层次语义特征提取高质量问答对。获取高质量问对构建问答系统一般包括用户问句语义分析、答案抽取和答案生成三个部分。与此同时,水稻作为我国重要的粮食作物之一,在我国有着广泛的种植面积,水稻生产中的病虫害问题一直是影响其品质和产量的主要因素之一,如何在生产过程中快速准确地提供水稻病虫害问题的治理方法与手段显得尤为重要。因此本文以水稻问答社区为例,针对农业问答社区面临的4个关键技术难题:农业问句难以精确地自动分类;问答社区难以精确挖掘相同语义问句,一定情况下造成平台知识的冗余;问答社区难以在候选答案中自动、精准识别正确答案;现有的农业问答模型准确率较低,难以满足用户在生产过程中实时获取解答方式的要求。采用深度学习和自然语言处理技术对问句分类、问句语义相似度、答案抽取和答案生成4个方面进行语义模型构建,挖掘问答社区高质量水稻问答对,从而提高水稻问答系统的整体性能。首先,为了解决水稻问答社区中水稻提问数据快速自动分类问题,提出一种基于注意力机制(Attention)和密集连接卷积神经网络(Densely connected convolutional neural network,Dense CNN)水稻问句文本分类方法。针对水稻文本具备的特征,采用Word2vec方法对文本数据进行处理与分析,并结合农业分词词典,对文本数据进行向量化处理,使用Word2vec方法能够有效地解决文本的高维性和稀疏性问题。通过对卷积神经网络上下游卷积块之间建立一条稠密的连接,加强了文本特征的传输,增强了文本特征在各卷积块之间的流动,使得模型能够自动提取和学习文本特征。并结合注意力机制能够使文本中的关键词特征得以充分体现,使得文本分类模型具有更好的文本特征提取精度,从而提高分类精确率。试验结果表明:基于Attention-Dense CNN的水稻问句分类模型可以提高文本特征的利用率,减少特征丢失,能够实现快速及准确地对水稻问句文本进行自动分类,分类精确率及F1值分别为95.6%和94.9%,与其他7种神经网络问句分类方法相比,分类效果提升明显。其次,为了解决水稻问答社区中相同语义问句文本的快速自动检测,提出一种基于BERT的协同注意力机制(Coattention)和密集连接双向门控循环单元(Densely connected gated recurrent unit,Dense BiGRU)的水稻问句相似度匹配模型。针对水稻文本具备的特征,本文采用12层Transformer的中文BERT文本预训练模型对文本数据进行向量化处理,并与Word2vec、Glove、TF-IDF方法进行对比分析,得出BERT方法能够有效解决多义词在不同语境下具有不同含义的问题。该网络的每一层都使用注意特征的连接信息以及前面所有递归层的隐藏特征,为了缓解由于密集拼接而导致特征向量尺寸不断增大的问题,在模型的最后使用自动编码器进行特征降维。试验结果表明:基于BERT的Coattention-Dense BiGRU水稻问句相似度匹配模型可以提高文本特征的利用率,减少特征丢失,能够实现快速及准确的对水稻问句文本进行相似度匹配,在本文所构建的水稻问句相似对数据集上精确率及F1值达到96.3%和96.9%,与其他6种问句相似度匹配模型相比,效果提升明显。再次,为了解决水稻问答社区正确答案的自动检测,提出了一种基于动态注意力机制和多策略匹配(Dynamic Attention and Multi-Perspective Matching,DAMM)的答案选择模型。在动态注意力机制层采用了基于过滤策略的动态注意机制,有效地去除了文本数据的冗余信息,接着在匹配层采用基于完全匹配机制和基于注意匹配机制的2种不同匹配策略获取文本信息之间的交互,使用BiGRU模型将从匹配层获得的文本特征信息拼接起来。最后,采用softmax分类器计算拼接文本特征信息的相似度,得到问答句之间的语义相关性。实验结果表明,与其他6种答案选择模型相比,DAMM在水稻问答社区答案选择数据集的效果最优,DAMM的平均精确率(Mean Average Precision,MAP)和平均倒数排名(Mean Reciprocal Rank,MRR)分别达到85.7%和88.9%。能够实现水稻问答社区正确答案的精确和自动识别。最后,采用基于注意力机制和残差长短期记忆(Residual long short-term memory,Res LSTM)的序列到序列(Sequence to Sequence,Seq2seq)模型,实现了水稻生成式问答模型的构建。首先使用GPT预训练模型对水稻问答文本进行向量化表示。然后在编码器和解码器中使用Res LSTM提取文本特征,Res LSTM提供了一个额外的低空间捷径,使用LSTM的输出投影矩阵和输出门来控制空间信息流,当模型损失函数趋于稳定时,模型只保留水稻问句向量的恒等映射值,减少了模型参数,提高了模型性能。接下来在编码器和解码器中间连接注意力机制,可以有效加强问句关键词特征信息的权重;最后在解码过程中使用Softmax函数计算最终的概率分布。试验结果表明:基于Attention-Res LSMT-Seq2seq的水稻问答模型与其他6种水稻生成式问答模型相比,BLEU和ROUGE指标得分达到最高的35.3%和37.8%。
其他文献
近些年来,随着物联网技术不断发展,船舶信息化技术得到快速发展。目前小型船舶信息化的发展未受到足够重视,对小型船舶信息化研究功能仍然较少,严重影响到小型船舶优化管理、安全监管等方面的提升。物联网技术是传感技术、网络通信技术、嵌入式技术等多技术融合的综合体现,可在小型船舶信息化系统中承担重要角色。本论文设计了一款小型船舶信息化系统终端。使用物联网技术,通过嵌入式方式在船舶上装载多种传感设备和GPS/北
《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》提出,构建现代乡村产业体系,开发休闲农业和乡村旅游精品线路。发展乡村旅游是实施乡村振兴战略的有效途径。乡村游憩设施设计是提升乡村旅游质量的必要手段。而眉山村为2016年由原北部的眉山村及南部的石溪村合并而来,2020年虽凭嵋山葡萄、眉山人家获得湖南省乡村旅游重点村的称号,但通过实地考察,眉山村的乡村旅游发展仍存在一定的发展空间。鉴于此,
梳理了二次和三次幂和的一些初等解法,并用构造函数的方法得到了用低阶幂和递推高阶幂和的一个公式。
给出了 Bernoulli多项式系数的递推关系式 ,简化了 Bernoulli多项式和 Bernoulli数的计算 ,同时给出了 Bernoulli多项式的一些很好的性质
南京市江宁区上元幼儿园作为“幼儿园综合课程”应用推广园,始终遵循“一日生活皆课程”的课程理念,为幼儿营造宽松愉悦的生活、学习、游戏环境与氛围,积极开展园本课程实践,不断优化课程目标、丰富课程内容、拓宽课程实施路径、完善课程评价机制,积极建构适用于本园的适宜性课程体系。
《中华人民共和国民法典》第一百七十一条第四款规定了相对人非善意时,相对人和行为人的民事责任承担问题,弥补了之前法律的空白。条文中规定行为人与相对人按照各自的过错担责,这与外国法上将相对人非善意视为无权代理人免责的法定事由的通常做法明显不同。但法条规定较为笼统,对于其立法规范对象以及该责任的性质、责任构成、责任范围、责任分担等问题,学理和司法实务上都存在不同的观点。基于以上背景,本文将针对上述问题,
初中体育教学现今存在的问题较多,如教学效率不高、教师教学能力有待提高、教师忽略学生的个体差异等。分层教学模式有利于教师明确教学目标,落实因材施教的教学理念,也有利于提高学生的学习积极性。为此,教师应用分层教学模式时应遵循全面发展原则、因材施教原则、灵活教学原则。同时,教师可从学生分层,优化教学过程;教学计划分层,奠定分层教学基础;激励分层,锻炼学生心理素质;教学目标分层,提高学生身体素质;分层评价
现代数学教育技术在中小学数学课堂中的应用越来越广泛,然而相关的理论研究比较缺乏。学习科学为数学教育技术研究提供了宽广的视野。活动理论、认知负荷理论、TPACK理论和STEM教育理论等为数学教育技术研究提供了宏观理论基础。教师只有掌握相关的理论,才能有效地运用数学教育技术进行课堂教学。
本文论证了数据财政概念的合理性,提出数据要素(资源)具有公共性,并认为数据财政是推动数据开放、促进数字经济发展的重要机制,在现代国家治理中可以发挥重要作用,是财政领域新历史阶段的重要任务。论文从边界、方式和手段、制度设计与建设等维度勾勒了数据财政的框架,认为数据财政可以分为狭义和广义,涉及收费方式和税收手段等主要财税工具,需要进行数据服务价格及收费制度、个人信息授权制度、数据交割制度、数据资产管理