农作物病虫害抽取与分文检索技术研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:shulang198851
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息量的日益剧增,人们可以足不出户的接触到海量信息。然而,如何在浩如烟海的数据中快速而准确地找到所需要的信息也成为一个需要迫切解决的问题。因此,必须要找到一种能灵活、快速、准确的信息抽取技术以实现高效率的信息抽取。   农作物病虫害是我国的主要农业灾害之一,它具有种类多、影响大、爆发频繁的特点,其发生范围和严重程度对我国国民经济,特别是农业生产造成重大影响。建立一个农作物病虫害信息的数据库对指导病虫害防治工作具有重要意义。目前,互联网上存在大量关于农作物病虫害信息的中文网页,它们是针对农作物病虫害防治的有价值的资料。但这些网页一般分散在多个网站上,网页结构、内容格式不尽相同。本文利用信息抽取技术,将异构网页上的农作物病虫害信息抽取出来,并采用全文检索技术对其进行管理。   为了实现农作物病虫害信息的抽取,首先要过滤掉网页上的噪音文本,以避免噪音文本对抽取算法产生干扰。本文提出了一种去除网页噪音的方法,根据网页分块后各内容块的位置和包含的文字数去除噪音块。然后,本文对本体技术进行研究,对农作物病虫害信息进行分析,以分层与基于事件的本体构建模式,创建了农作物病虫害信息的本体。将本体与信息抽取技术相结合,使得不同来源的信息以统一视图呈现。本文采用双层文本分类算法对文本进行事件概念的划分,根据最优分类判断各块所属的类别,从而实现事件抽取。   为了有效地管理和查询农作物病虫害信息中的长文本字段,本文基于Lucene对抽取到农作物病虫害信息中的某些字段构建了全文索引。针对Lucene中文分词能力较弱的问题,本文利用本体中定义的概念和实例,添加适合农作物病虫害信息的中文分词器,以达到更好的分词效果。   基于以上工作,本文实现了一个农作物病虫害信息抽取和检索系统,有效地实现了中文网页上的农作物病虫害信息抽取和全文检索。
其他文献
微博,是通过关注机制分享简短实时信息的广播式社交网络平台。其中包含了大量的突发话题,处理不当会造成谣言的滋生和蔓延,破坏网络秩序,影响社会治安,不利于社会的安定团结。本文
网络的发展带来了前所未有的技术革新,而作为一种社交媒体,网络论坛正在成为人们日常交流的重要工具。在网络论坛中,用户通过自己的账户发布和回复信息。一个论坛常常涉及各
伴随着互联网的飞速发展,为人们带来便利的同时,信息安全问题日益突出。如何保证信息安全在今天变得尤为重要。现有的安全防范体系因其技术的滞后性、被动性等因素并不能从根本
计算机网络把我们带入了一个信息化的社会。在信息社会里,计算机网络已成为现代社会赖以生存的物质基础,人们希望通过电子设备实现快速、远距离的交易,于是数字签名便应运而生,并
随着Internet的迅猛发展以及各种无线技术的广泛部署,各种入侵攻击对网络的危害日益严重,尤其是利用“跳板”、匿名信道等技术实施的新型隐秘入侵攻击,不仅对攻击信息进行加密,而
  随着大的公司、组织机构中人员、应用系统、信息系统设备的不断增多,最初的用户管理已经扩展到对所有主体(包括人员、应用系统和信息系统设备)的身份管理。不同组织为了资
RSA算法实现作为USBKEY认证中的关键技术之一。本文研究了USBKEY中的RSA算法,目的是充分利用USBKEY中有限的硬件条件,提高RSA算法的运行效率。本文通过对传统RSA算法进行分析
随着实时系统应用的日趋广泛,保证系统的实时性变得尤为重要。与此同时,多核系统的飞速发展让多核系统中的实时任务调度问题成为当今IT技术领域的热点问题。新时代的研究焦点
随着多媒体信息技术与WEB产业的飞速发展,生活中的多媒体数据呈现爆炸式增长的趋势。基于内容的视频检索因其在索引、组织数据上的优异性能,成为信息检索领域最前沿和最活跃的
阀门是工业现场必不可少的重要组成设备,以图像为对象监控阀门区域对保障阀门的正确操作、防止人员入侵造成的误操作等具有重大意义。然而现代工业现场阀门区域的无人值守化