本数据采用2024年哨兵2号光学卫星数据为数据源,采样随机森林回归(RFR)方法构建新疆湖泊水体叶绿素a浓度遥感估算模型。数据为CGCS2000坐标系阿伯斯投影,精度为10米。数值系数为0.001,即数据像素值乘以0.001可得实际水体叶绿素a浓度(μg/L)。
| 数据量 | 1.8 GiB |
|---|---|
| 数据格式 | TIF格式 |
| 数据空间分辨率(/米) | 10米 |
| 数据时间分辨率 | 月 |
| 坐标系 | CGCS2000 |
| 投影 | Albers投影 |
采用2024年哨兵2号光学卫星数据L1C级别数据,数据可从欧空局哥白尼数据开放中心获取(https://dataspace.copernicus.eu/browser/)。
使用具有较好辐射性能的Sentinel 2 A/B MSI。Sentinel 2 A/B MSI拥有13个光谱波段,空间分辨率分别是10 m、20 m和60 m,重访周期为10天,双星组网后为5天,在内陆水体表现了较好的性能。从欧空局哥白尼数据开放中心获取L1C数据。 采用POLYMER算法进行大气校正。随后需要进一步去除天空光、太阳耀斑和残余气溶胶散射的影响: R_rs (λ)=(R(λ)-min(R(865),R(2202)))/π 式中,Rrs为水体遥感反射率,R为POLYMER校正获取的地表反射率。 采样随机森林回归(RFR)方法构建水质参数模型。随机森林是一种基本单元为决策树的集成学习方法,在训练过程中构建大量相互独立的决策树形成“随机森林”,最后综合这些决策树结果提高模型精度(例如输出平均值)。RFR算法的“随机性”主要体现在两个方面:构建每颗决策树时通过Bagging方法(即自助采样法,每次采样后将样本放回)从原始训练数据集中随机抽样生成训练数据子集;在节点分裂时不使用所有的特征变量参与比较,而是从特征变量中随机选择一个子集参与节点分裂。两个“随机性”使得RFR算法不容易过拟合,并且对异常值和噪声具有很好的容忍度。 RFR算法在训练过程中最重要的几个超参数是:(1)决策树的数量(n_estimators)。n_estimators越大,模型效果通常越好,但计算时间也越长;在达到一定数据量,模型趋于稳定。(2)节点分裂时的最大特征数量(max_features),决策树在节点分裂时从随机选择的max_features个特征中寻找最佳分裂特征。(3)决策树的最大深度(max_depth),如果不设置(即None),则决策树会最大限度的生长直到满足分割终止条件。RFR通过Python scikit-learn软件包实现。 通过调整输入算法的最佳输入变量,各算法最优超参数通过格网化搜索方法获得。基于RFR算法精度较高:不确定性为(ϵ)为21.92%,偏差(β)为4.29%,斜率为0.64,均方根对数误差为0.235。
采样随机森林回归(RFR)方法构建水质参数模型。随机森林是一种基本单元为决策树的集成学习方法,在训练过程中构建大量相互独立的决策树形成“随机森林”,最后综合这些决策树结果提高模型精度(例如输出平均值)。通过调整输入确定各水质参数算法的最佳输入变量,各算法最优超参数通过格网化搜索方法获得。利用大量野外调查和星地同步数据进行模型研究,结果表明RFR叶绿素a浓度算法精度较高,不确定性为(ϵ)为21.92%,偏差(β)为4.29%,斜率为0.64,均方根对数误差为0.235。
| # | 编号 | 名称 | 类型 |
| 1 | 2021xjkk1400 | 空天地网一体化综合科考监测体系建设 | 国家科技支撑计划项目 |
本作品采用
知识共享署名
4.0 国际许可协议进行许可。
| # | 标题 | 文件大小 |
|---|---|---|
| 1 | 2021xjkk1400-130-2024120801 |
中国·新疆乌鲁木齐市北京南路818号, 830011, 电话: 0991-7823121
