论文部分内容阅读
近年来,数据挖掘(Data Mining)引起了信息产业界的极大兴趣,其主要原因是现实中存在大量数据,不能被充分使用,另一方面存在着迫切的需要将这些数据转化为有用的信息的需求。数据预处理是一个完整的数据挖掘过程基础步骤,所以数据预处理的优劣直接影响数据挖掘的成效。同时,随着信息技术和空间技术的发展,卫星遥感在海洋渔业中的应用研究也倍受人们的关注。基于海洋卫星遥感数据和渔业产量数据的渔场分析和渔情预测已逐渐成为渔业主管部门和生产单位如何进行鱼讯生产部署和管理的重要依据。目前,领域专家进行渔场分析和渔情预测主要运用相关性分析、线性回归、多元线性回归、非线性回归以及各种智能算法,包括神经网络等。领域专家在使用这些算法时,数据源是通过浏览器获得,在下载数据量多的情况下,操作复杂繁琐;数据处理是使用各种软件如Excel、SPSS、ArcGis等进行处理。这种做法不仅没有真正利用各种软件的长处,反而增加了数据处理的复杂程度,没有合理有效地进行数据预处理。本文针对渔业应用,分析渔业生产数据和海洋卫星遥感数据的特点,提出一种综合预处理这两种数据的方法,提高数据预处理的效率,达到业务化应用程度。包括创新性地将数据源获取作为数据预处理过程中的一个步骤,提出自动化获取海洋遥感数据的方法,该方法获取的数据能够在时间和空间上进行定制,使用户得到数据更加方便;改进地质学中的克里格(Kringing)插值算法应用于卫星遥感数据的补缺,提高数据补缺精度;利用BP神经网络提取遥感图片数据,与普通方法相比,大幅度减少数据提取时间和提高精度;运用基于概念树的面向属性归纳的方法对海洋遥感环境数据和渔业产量数据在不同时间尺度和空间尺度上进行自动归纳,增加数据预处理速度。另外本文还增加了渔场分析和渔情预测中常用指数的自动计算功能。本文的主要工作及结果如下:(1)海洋遥感数据的种类包括海表温度、海面高度、叶绿色浓度等,数据的格式包括.txt、.nc、.jpg等,数据来源的网站包括oceanwatch、哥伦比亚、微波网、日本气象厅等,通过分析网站结构,下载链接字符串等步骤,自动获取海洋遥感环境数据。(2)改进地质学中Kriging插值算法,填补由于云层遮挡等原因造成的环境数据缺失,对Kriging算法中的各种变异函数进行试验验证,以期获得最佳的变异函数模型,使填补精度进一步提高。(3)运用BP神经网络训练遥感环境图片中的标准色卡,得到模型,利用此模型提取遥感环境图片数据,填补没有一种行之有效的方法提取遥感环境图片数据的空白。(4)运用概念树属性归纳对海洋遥感环境数据和渔业产量数据在不同时间粒度和空间尺度上进行自动归纳,产量数据和环境数据在时间尺度、空间尺度都从最低概念层次进行存储,可以快速获得其他任何时间分辨率和空间分辨率的数据。(5)编码实现面向渔场分析的数据预处理系统,考虑本文在渔场分析和渔业预测中的实际应用,增加渔业领域中各种指标数据的自动计算功能,如GSST、CPUE、HIS等,是该系统达到业务化应用。最后文章以1995-2007年大眼金枪鱼围网数据验证该系统的正确性和有效性。