基于精准中文分词的农业信息垂直搜索引擎

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sydna521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,我国需要对农业的发展进行转变和改革。目前大力推动农业方面的信息化建设已成为我国发展的重要任务,这也是实现农村现代化较为重要的一步。网络中的数据以爆炸性增长,为了从海量数据中获取目标数据,搜索引擎应运而生,当前搜索引擎是人们快速获取信息的主要工具。搜索引擎的搜索结果匹配度又极其依赖于使用的分词方法,分词能力越好会得到更高匹配度的结果,同时高匹配度会大大缩短用户获取目标信息的时间。本文以农业信息为背景,对搜索引擎中的中文分词关键技术进行了研究。当前中文分词技术主要分为两种,基于词典的分词方法和基于字的分词方法。基于词典的分词方法存在歧义问题和未登录词问题,而基于字的分词方法不存在这个问题,但处理跨领域文本时分词效果较差。当前基于字的分词方法有HMM(Hidden Markov Model)模型分词方法、CRF(Conditional Random Field)模型分词方法等。HMM模型中存在齐次马尔可夫性假设和观测独立性假设,这两种假设在中文分词中是不合理的。CRF由于自身的特性不存在这两个假设,但CRF分词时不能对长期上下文信息进行理解,Bi-LSTM(Bi-directional Long-Short Term Memory)可以弥补该缺点,Bi-LSTM-CRF分词模型与这两种分词模型相比有更好分词效果。为了进一步提高Bi-LSTM-CRF的分词效果以及提升在农业领域的分词能力,本文做了以下工作:(1)提出一种5-tag的标记法,能够在当前大小的训练语料库上训练得到更好的分词模型;(2)针对当前Bi-LSTM在输出时不合理的输出权重设置,让前向LSTM和后向LSTM的输出达到一个合理的比例;(3)为了解决模型在训练过程中的过拟合问题,将Droupout使用在LSTM单元中,解决过拟合问题;(4)针对当前的Word2vec模型生成的字向量并没有考虑当前字上下文信息,引入了Bert预训练模型生成能考虑上下文的字向量;(5)针对当前模型在跨领域文本有着较弱的分词能力,本文提出了一种基于词典的词抽取方法,与Bi-LSTM-CRF结合之后,能够在农业领域有更佳的分词效果。通过对分词方法的实验发现这些优化方法均对Bi-LSTM-CRF分词方法的分词能力有提升,尤其基于词典的词抽取方案,能够提升该模型在农业领域数据的分词能力。最后对农业信息垂直搜索系统进行了需求分析、系统设计和系统实现,且将本文研究的分词方法应用于该系统。然后对该系统进行对比实验,分别将优化前后的BiLSTM-CRF分词方法应用于该系统中,发现该系统在使用优化后的Bi-LSTM-CRF分词方法后,搜索关键字与搜索结果有更高的匹配度。
其他文献
在高频高压大功率等电子电力器件领域,Ⅲ-Ⅴ族氮化物半导体因拥有较宽的禁带宽度、高击穿电场和极化效应等优点,得到了广泛的应用。在Ⅲ-Ⅴ族氮化物半导体中,GaN材料和器件的研究现最为成熟,而现如今氮化铝(AlN)材料和器件的研究方向主要集中在制备工艺,AlN器件方向尚有些许空白。其中的铝镓氮(AlGaN)可视为GaN与AlN的过渡材料或二者的三元合金化合物,因此其禁带宽度、击穿场强等各项性质可根据Al
学位
氮化镓(GaN)作为宽禁带半导体材料,具备超高的电子迁移率,且介电常数小、击穿电压大,因此在集成电路领域内成为研究热点,有着广泛的应用前景。尤其是AlGaN/GaN SBD,因其较高的开关频率、较低的开启电压、以及极化效应产生的高浓度二维电子气,使其有望成为高性能直流(DC)和射频(RF)功率二极管的理想器件[1]。尽管上述提到的二维电子气沟道中电子理想迁移率能达到2000 cm~2/(V·s),
学位
scRNA-seq(单细胞RNA测序)作为一种能够将测序分辨率精准到个体细胞的测序技术,对揭示细胞异质性具有重要作用,细胞身份的识别也对下游的分析有很大贡献。对单细胞进行聚类,主要是通过对单细胞基因表达的相似性进行识别。单细胞数据具有高维度、高稀疏性的特点,针对这些特点,已经有大量的单细胞聚类算法产生,在聚类的准确度方面已经取得了很好的成果。但随着单细胞数据规模的不断增长,对单细胞数据聚类算法提出
学位
多重网络数据表示了实体之间复杂的多样性联系,在社交领域、生物医学领域、电力交通领域等一系列的领域中广泛存在着。图表示学习,也称为网络表示学习,旨在将图上的拓扑结构信息嵌入到向量空间中,把每一个节点表示为低维分布式的实值向量。图表示学习能够更加有效地解决节点分类,链路预测等任务,因此受到了越来越多研究者的关注。在多重网络数据中,不同关系(不同层)的拓扑结构在不同方面刻画了实体与实体之间的联系。为了更
学位
随着科学技术的快速发展,航空航天等大型项目的运行成本越来越高,云仿真在降低运行成本、提高演习效率等方面起到了重要作用,成为了大型项目实现测试评估的重要技术。但是在进程高并发、资源需求量巨大的场景下,为保证仿真任务顺利运行,就需要将单个计算节点无法承担的任务调度到其他空闲的计算节点中,因此需要一种合理的仿真资源智能调度技术去解决仿真任务与仿真资源之间的供需关系。目前解决仿真资源智能调度问题的主要方法
学位
交通智能化已成为一种趋势,自动驾驶作为智慧交通的重要一环和加速汽车行业发展的重要技术,得到了国家越来越多的重视和支持。车载摄像头采集到的道路影像辅以目标检测技术,能够为辅助驾驶系统提供必不可少的视觉感知,交通环境中的道路目标检测有着重要的研究意义。如今目标检测技术快速发展,常规道路场景下的检测已不成问题,但在一些复杂的交通场景中,目标存在密集、遮挡以及目标尺寸差距较大的情况,容易出现严重漏检,检测
学位
互联网内容和设备的快速增长以及云计算和大数据处理技术的飞速发展,使得传统网络愈发不能满足用户对灵活路由的需求。软件定义网络(Software-defined net-working,SDN)通过将控制平面和转发平面分离,给网络带来了可编程的特性,实现了路由自定义和网络自配置。SDN主要由应用平面、控制平面和转发平面三部分组成,控制平面由一定数量的控制器构成,控制平面和转发平面需要进行大量的通信以控
学位
人脸表情识别在医疗、教育、游戏、辅助驾驶等领域都体现出了重要价值。近些年不断有新的算法、模型和训练技术被提出,而且已经面向应用场景开发了人脸表情识别系统。本文面向校园安防特定应用场景中安管人员的实际需求:在一些对安全保密性要求更高、闲杂人等不可轻易进出的场所进行人员安全程度的快速度量,将表情作为评价因素对人员安全度进行度量,作为从情绪角度提供安全度的一个探索。实验室中的人脸表情识别模型实现了97%
学位
随着现代产业链的发展,企业建立自己的采购管理仓库,并通过信息化技术进行采购仓储管理工作,能有效降低企业对第三方的依赖,保证企业供应链安全。企业采购仓储管理对系统安全提出了更高的要求,但采购过程中订单数量不大,人员相对固定,区块链技术在提高系统安全性的同时能够满足企业采购仓储管理服务的基本性能需求。本文设计并实现了基于区块链的仓储管理云平台系统。结合区块链的特性,为保证仓储管理系统的安全性,设计了一
学位
随着航天技术的发展,人们对整流罩内的环境要求也越来越高,而保障其环境质量的主要手段之一是通过整流罩空调对进风参数进行控制。目前主流的空调控制方法是常规PID(比例积分微分)控制与模糊PID控制,但整流罩空调不同于其它空调,它对控制系统的准确性、稳定性、快速性要求极高,这两种算法由于自身的缺陷,很难满足整流罩空调的控制要求。PID控制需要精确的系统模型,但整流罩空调是具有时变性、滞后性和强耦合性的非
学位