论文部分内容阅读
随着农业信息化的快速发展,互联网上的涉农信息快速增加。据不完全统计,目前我国有超过30000个涉农网站。然而这些网站上的信息大多是无组织、多结构、动态的,这严重影响了农业信息个性化服务的发展。在国家重大科技支撑项目子课题“基于本体的农业搜索引擎”(2006BAD10A0502)的支持下,我们研究开发出了针对农业的垂直搜索引擎“搜农”。实践证明,该垂直搜索引擎能够为用户提供完善的个性化服务。随着农业信息的爆炸式增长,异常数据也在大量增加,异常数据的存在大大降低了垂直搜索引擎个性化服务的质量。这些异常数据包括模糊数据、不完整数据以及取值异常的数据等。针对不完整数据,(刘峰等2009)提出了一种不完整数据的处理方法,并把此方法应用于“搜农”搜索引擎中。实际应用表明,该方法能够很好的工作。本文将重点研究如何识别农产品价格数据数值上的异常。本文重点研究了针对农产品价格数据的异常数据检测方法。本文首先简要介绍了常用异常数据检测方法,把这些常用的异常数据检测方法进行一定的修改以应用于农产品价格数据;同时本文对农产品价格数据的特征进行了详细的分析,并根据该数据特征提出了一种针对农产品价格数据的异常数据检测方法;最后对各个检测方法做了实验。实验表明,本文提出的针对农产品价格数据的异常数据检测算法能够很好的完成任务。同时,本文研究了如何把异常数据检测算法应用于垂直搜索引擎中。本文详细分析了该垂直搜索引擎的系统架构,并着重阐述了该搜索引擎的数据流向,在此分析基础上,详细讲述了如何把异常数据检测系统完好的融入已有系统,实现各子系统的对接。最后,本文分析了该异常数据检测系统的特性,详细分析了添加该异常数据检测系统后的垂直搜索引擎的数据流向。实际应用表明,添加了异常数据检测系统的垂直搜索引擎,能够为用户提供更高质量的个性化服务。