论文部分内容阅读
物种如何分布以及为什么这样分布是一个重要的科学问题。物种分布模型(Species distribution modelling)是解答这个问题的一个重要工具。物种分布模型通过量化物种与环境的相关性,建立模型,预测其潜在的分布范围。目前,物种分布模型已有大量的研究及广泛的应用,其中包括评估干扰下物种的分布及丰富度的变化,预测物种可能的入侵(速度及距离),制定保护规划及选择合适的保护区,理解物种的分布机理,探讨变化环境下(气候变化、生境破碎化及地理阻碍等)物种的分布等。目前,现有的物种分布模型有很多种算法,不同算法有各自的优缺点及预测精度,在使用之前,应选择合适的模型。本实验收集了中国地区占优势的2种针叶树种(Pinus massoniana和Pinus yunnanensis),3种阔叶树种(Betula platyphylla,Quercus wutaishanica和Quercus variabilis)的分布数据和26种生态环境变量(19种生物气候因子、3个人类干扰因子,3个土壤因子,1个地理因子),使用6种常见的物种分布模型(RF、MAXENT、SVM、BIOCLIM、DOMAIN、MAHAL)来模拟和预测他们的潜在分布区域,评估不同模型运算100次后的稳定性。结果表明:1)所有的6个模型均有较高的预测精度,但相比2个模型(BIOCLIM和DOMAIN),其他4个模型(MAHAL,RF,MAXENT和SVM)的AUC和Kappa明显更高(p<0.05);2)从置信区间上来看,MAHAL、RF、MAXENT和SVM更高(p<0.05);MAHAL、RF、MAXENT和SVM的平均变异系数、极差比BIOCLIM和DOMAIN更低;3)从密度曲线来看,MAHAL、RF、MAXENT和SVM的峰值(0.97 for AUC,0.90 for Kappa)高于BIOCLIM、DOMAIN(0.95 for AUC,0.81 for Kappa);前者的峰值密度(>20%(AUC)和>8%(Kappa))高于后者的峰值密度(<20%(AUC)和<8%(Kappa));4)比较他们的密度曲线,发现MAHAL、RF、MAXENT和SVM要比其他2个BIOCLIM和DOMAIN更加陡峭,值也更接近于1。可见,相比非机器学习模型,机器学习模型的置信区间较小,对物种分布的预测更加集中,数据更加整齐,受随机变量影响更小,更加稳定。要研究物种的分布模型,首先需要大量的分布数据。而GBIF数据库提供了主要的分布数据。如果人工下载,耗时耗力,再加上物种名称检查及分布数据检查,限制了物种分布模型的应用。因此,有必要开发一个软件,能自动和半自动从GBIF数据库下载数据。软件SDMdata就是为了实现此功能而设计。SDMdata具有如下特点:1)基于Python语言,具有该语言的高运算性能和低的内存消耗优势;2)整个操作流程非常简单,类似文章的投稿系统;3)基于网络的,用户可以自由使用和管理,避免了繁琐的安装;4)适合多种操作平台和多种设备(比如平板电脑、台式电脑,甚至智能手机);5)SDMdata是开源的,所有的代码均可以免费下载和使用。SDMdata的官方网站为http://www.sdmserialsoftware.org/sdmdata/。现有的物种分布模型数据多来自标本馆、数据库等,存在着不确定性,限制了物种分布模型的应用。而虚拟物种是一种高效的方式,允许研究者控制输入数据的质量和幅度。虚拟物种可以解决许多真实物种所不能解决的问题。比如,虚拟物种可以确保研究结果不受不同物种和物种特性的影响。随着虚拟物种使用的增加,有必要提供一个简单的、直观的和标准的软件来制造虚拟物种。这里,一个新的软件包被设计用来制造虚拟物种。SDMvspecies是基于R语言的软件包。从理论上讲,SDMvspecies可满足任何支持R软件的平台。在研究中,SDMvspecies主要安装和测试是在Linux平台下。SDMvspecies需要安装栅格化软件包,用于处理栅格化地图,以满足物种分布模型的分析。SDMvspecies当前的版本0.2.1包含了四种制造虚拟物种的方法(生态位合成法、平均值法、中值法和人工钟型曲线法)。SDMvspecies免费下载地址是http://cran.rproject.org/web/packages/sdmvspecies/。