论文部分内容阅读
随着网络信息量的日益剧增,人们可以足不出户的接触到海量信息。然而,如何在浩如烟海的数据中快速而准确地找到所需要的信息也成为一个需要迫切解决的问题。因此,必须要找到一种能灵活、快速、准确的信息抽取技术以实现高效率的信息抽取。
农作物病虫害是我国的主要农业灾害之一,它具有种类多、影响大、爆发频繁的特点,其发生范围和严重程度对我国国民经济,特别是农业生产造成重大影响。建立一个农作物病虫害信息的数据库对指导病虫害防治工作具有重要意义。目前,互联网上存在大量关于农作物病虫害信息的中文网页,它们是针对农作物病虫害防治的有价值的资料。但这些网页一般分散在多个网站上,网页结构、内容格式不尽相同。本文利用信息抽取技术,将异构网页上的农作物病虫害信息抽取出来,并采用全文检索技术对其进行管理。
为了实现农作物病虫害信息的抽取,首先要过滤掉网页上的噪音文本,以避免噪音文本对抽取算法产生干扰。本文提出了一种去除网页噪音的方法,根据网页分块后各内容块的位置和包含的文字数去除噪音块。然后,本文对本体技术进行研究,对农作物病虫害信息进行分析,以分层与基于事件的本体构建模式,创建了农作物病虫害信息的本体。将本体与信息抽取技术相结合,使得不同来源的信息以统一视图呈现。本文采用双层文本分类算法对文本进行事件概念的划分,根据最优分类判断各块所属的类别,从而实现事件抽取。
为了有效地管理和查询农作物病虫害信息中的长文本字段,本文基于Lucene对抽取到农作物病虫害信息中的某些字段构建了全文索引。针对Lucene中文分词能力较弱的问题,本文利用本体中定义的概念和实例,添加适合农作物病虫害信息的中文分词器,以达到更好的分词效果。
基于以上工作,本文实现了一个农作物病虫害信息抽取和检索系统,有效地实现了中文网页上的农作物病虫害信息抽取和全文检索。