南科大环境学院郑一团队利用全球卫星嵌入数据重塑水文模型泛化能力
近日,南方科技大学环境科学与工程学院教授郑一团队在地球科学领域旗舰期刊Geophysical Research Letters发表题为“Foundation-scale satellite embeddings reframe hydrological generalization as a representation problem”的论文。该研究首次将谷歌地球基础模型产出的卫星嵌入(Satellite Embeddings)数据用于水文模拟,显著提升了基于深度学习的降雨-径流模型在时间和空间上的泛化能力。研究表明,进一步提升水文模型精度的关键不在于设计结构更复杂的模型,而在于为模型提供更全面、更精细的流域特征信息。
基于水文模型的径流模拟是水资源开发利用、农业生产、水旱灾害防治、生态环境保护的重要基础。现有模型通常依赖一组流域属性(如地形、土地利用、土壤等)来“标记”特定流域,并据此实现跨流域应用,特别是无资料流域的径流模拟。然而,传统的数据生产方式多提供多年平均意义下的“静态属性”,且仅能刻画有限的流域特征。2025年,谷歌发布了AlphaEarth Foundations地球基础模型。该模型综合利用光学影像、合成孔径雷达、地形等多源地球观测数据,通过深度学习将复杂的地表信息编码为统一的低维数值表示(Embeddings)。这些Embeddings以全球范围、约10米分辨率逐年更新,每个像元对应一个64维向量,从而为地球表面各位置提供了时变、结构化的“数字档案”。作为一种新型地表表征数据产品,其在地球系统模拟任务中的应用潜力尚有待系统评估。为此,本研究率先将该数据引入水文模拟,构建了融合传统静态属性与卫星嵌入的混合属性深度学习水文模型(图1),并在澳大利亚455个流域(图2)上开展了系统验证。

图1 融合传统静态属性与卫星嵌入的混合属性深度学习水文模型

图2 澳大利亚455个研究流域的空间分布
研究发现,卫星嵌入带来的模型精度改善并非均匀分布,而是与流域所受人类活动干扰强度密切相关。在扰动强度最高的流域中,引入卫星嵌入可将模拟误差平均降低11.5%,而低扰动流域仅为4.6%;在农业用地占比最高的流域中,误差降幅达12.5%,而在森林覆盖占比最高的流域中,仅为1.3%。这一差异表明,现有模型在时间泛化上的不足,很大程度上源于静态属性与实际地表状态之间的错配:当流域下垫面在强人类活动作用下快速变化时,固定不变的属性表征难以反映其真实状态,从而削弱模型的推断能力。相比之下,卫星嵌入提供逐年更新的地表表征,使模型能够感知流域近期状态;下垫面变化越剧烈,这种动态信息带来的增益也越显著。
研究进一步发现,当模型仅依赖静态属性时,部分流域在特征空间中呈现出明显的“孤岛”状态(图3a、3c),即难以在训练数据中找到相似流域作为参照。这种表征孤立性会导致模型难以实现有效外推,使其在这些流域的模拟精度显著下降,模拟效果甚至接近失效(图3d)。引入卫星嵌入后,流域之间原本被静态属性掩盖的内在相似性得以显现,使这些“孤岛”流域重新融入模型的可迁移学习范围中(图3b、3c)。进一步分析表明,嵌入重构后的流域相似性与基于水文特征计算的物理相似性更加一致(图3e),表明这种改进在一定程度上反映了真实的水文结构,而非仅仅是统计拟合的结果。

图3 卫星嵌入对流域特征空间和模型空间泛化能力的影响
该研究表明,水文模型在变化环境中的泛化能力,受到时间与空间双重维度的约束,当前面临的瓶颈更多来自流域表征方式,而非模型结构本身。相比持续提升模型复杂度以获得有限的精度增益,改进地表信息的表达与数据生产方式,可能为跨区域、跨时期的稳健模拟提供更为根本的突破路径。同时,该研究为谷歌AlphaEarth卫星嵌入数据在地球系统模拟任务中的应用提供了直接验证,表明基础模型驱动的数据表征有望成为连接地球观测与过程建模的新型纽带。
南科大环境学院博士生欧志刚为论文第一作者,郑一教授为论文通讯作者,南方科技大学为论文唯一完成单位。该研究得到了国家自然科学基金委杰出青年科学基金项目(42325702)、国家自然科学基金创新群体项目(42321004)和高水平专项资金(G030290001)经费支持。
复制下方论文链接至浏览器访问或点击文末“阅读原文”,即可查看论文:
https://doi.org/10.1029/2025GL121604






