前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >bioRxiv:神经网络预测生物多样性

bioRxiv:神经网络预测生物多样性

作者头像
Listenlii-生物信息知识分享
发布2022-03-31 21:42:13
5030
发布2022-03-31 21:42:13
举报

Journal: bioRxiv

Posted: January12, 2022

Link: https://www.biorxiv.org/content/10.1101/2022.01.12.475997v1.abstract

摘要

提出了一种可以跳过估计单个物种直接估计物种丰富度的深度学习方法。基于物种列表训练一个神经网络模型,为有监督机器学习提供了基础。该模型可基于空间相关变量,包括气候和地理预测变量,以及在线数据库中物种数量预测物种丰富度。

通过在高空间分辨率下为澳大利亚制作独立可验证的alpha、beta和gamma植物多样性地图评估了方法的效用。我们的深度学习框架为估算生物多样性模式提供了一种强大而灵活的新方法。

方法

本文提出的深度学习框架使用神经网络模型(深度学习)来预测alpha、beta和gamma多样性。该方法既不需要个物种的地理数据,也不需要使用种-面积曲线等方法手工外推物种丰富度。相反,模型可以内在地学习种-面积关系,允许在用户定义的空间尺度上预测三个多该样性指标。模型基于气候和地理因此、人类影响程度和样本量来预测植物多样性。

1.植被数据

图1 本研究选择的用于深度学习的样点vegetation plot(VP)

图2 计算VP的多样性信息。对于每个VP,定义了N个空间上最邻近的VP(例子中N = 3)。导出包含所有N个临近VP的最小圆的半径作为模型训练的生物多样性特征。研究最终使用N= 50,突出了区域异质性,也在beta和gamma多样性之间的可见空间结构上得到了最佳妥协。

2.模型特征

生物多样性、气候和人类活动指标作为深度学习模型特征(表1)

3.神经网络结构

使用全连接的神经网络建立回归模型,根据气候、地理和人类足迹特征推断物种的多样性。模型的隐藏层数和每层的节点数不同(表2)。

使用rectified linear units function (ReLU)作为每层的激活函数,并在输出层添加softplus激活函数。softplus激活函数确保输出为正值,却不对最大值做任何限制。

60%的数据作为训练数据,20%数据为独立测试集,剩余20%为验证集。

表2测试集的预测精度。最后三列为预测的平均百分比误差(MAPE)。加粗的为效果最好的模型。Dropout为在隐藏层中随机删除的节点比例,这可以降低模型的过拟合。

结果

图4 第一行为预测的多样性,第二行用变异系数表征不确定性,第三行为只保留变异系数小于中位数的预测结果。

想法

虽然机器学习最近很火:不需要物种丰度分布;不需要种面积关系;不需要设定变量之间的关系(如线性或指数),可直接量化预测中的不确定性。但是准确性高低有多高还未知。

这篇文章刚发在bioRxiv,还没有经过同行评审,结论看看就好。

文章只用了神经网络一种方法,没有多方法的比较;另外Alpha多样性预测的MAPE太高了,连最低都超过了50%。而beta和gamma都是基于alpha的,很难说准确性如何。

结果上看,大概超过一半澳大利亚面积预测的多样性变异系数都超过了中位数。结果好像并不是很好,可能说明现有的这些特征选的还不够。是不是加上微生物数据预测的会更好呢。反过来说,如果要预测微生物多样性,本身植物的多样性相比于微生物低得多了还预测不准,微生物准确性又能有多少呢。

本文代码见:

https://github.com/tobiashofmann88

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-02-09,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com