陈大可院士荐书!唐佑民研究员团队:集合滤波数据同化方法及其应用

  海洋科学作为一门以观测为主要研究手段的科学,其发展在很大程度上依赖于海洋观测技术水平的进步。在过去几十年里,随着海洋卫星、剖面浮标、水下潜器等新型技术装备的发展,全球海洋观测取得了长足的进步。如何有效地利用现有的观测数据,是一个亟需解决的问题。数据同化作为融合观测数据与数值模式的关键,对于构建可靠的再分析数据产品、实现精准的海洋环境及天气气候预测,具有不可或缺的作用。我在很早以前就意识到了数据同化的重要性,率先提出了耦合同化的概念,并成功应用于热带气候预测。近年来,数据同化的理论和方法不断发展,《集合滤波数据同化方法及其应用》重点阐述的集合滤波就是之一。需要指出的是,目前在海洋和大气领域方兴未艾的人工智能和数字孪生技术,也在很大程度上依赖数据同化。

  在日常生活中,我们经常能够观察到不同元素或事物之间相互影响和融合,从而逐渐趋向相似或相近。这一现象被称为“同化”,它在文化、社会乃至生物体内都有显著体现。以文化多样性为例,不同国家、地区的人们在饮食、服饰、语言等方面都展现出独特性。然而,随着全球化进程的不断推进,人们之间的交流与互动显著增加,因而不同文化逐渐相互渗透,导致一些文化特征逐步被同化,即向一致方向演变。

  类似的“同化”概念在海洋和大气科学中也有体现,即数据同化(data assimilation),也称资料同化。数据同化是一种将观测数据和数值模式进行有机结合,产生最优的大气海洋状态估计的技术。数据同化的概念起源于数值天气预报,最初旨在为大气数值预报提供可靠的初始条件。自20 世纪40 年代起,科学家开始尝试以数值方法求解描述大气运动规律的物理方程,从而预测未来的天气变化。实际上,无论是短期的天气预报,还是长期的气候预测,都可视为在给定初始条件下对数值模式的积分。因此,可将天气预报和气候预测视为初值问题,初始条件的准确性对预报结果具有深远影响。对于这种影响,一个典型的比喻就是所谓的“蝴蝶效应”。在复杂的天气系统中,微小的初始变化可能引发系统内部的连锁反应,导致大的天气及至气候异常事件。20 世纪的大气观测技术不断进步,气象卫星、雷达技术以及探空观测的发展,为科学家提供了更多、更精确的气象数据,为气象研究和天气预报的改进奠定了坚实基础。20 世纪后半叶,随着计算机的快速发展,数据同化广泛应用于天气预报,并有效提升了天气预报的准确性。

  相比于大气资料同化,海洋资料同化发展较晚,主要是由于海洋环境的复杂性和海洋观测成本高昂,海洋观测资料一直匮乏。直到20 世纪80 年代末,海洋卫星提供了全球海表温度资料,海洋资料同化开始应用于海洋模拟和海洋预报。近几十年来,海洋资料同化得到了快速发展。从20 世纪90 年代开始,美国、欧洲,以及中国相继启动了一系列海洋再分析项目,项目获得的海洋再分析数据产品不仅弥补了深层海洋观测数据的稀缺,也为海洋动力学研究、海洋气候变化和气候预测提供了基础数据。近年来,大气、海洋资料在海气耦合模式中被共同使用,资料同化研究已经迎来了耦合模式同化的高速发展时期。

  数据同化技术巧妙地融合了凝聚人类智慧的数值动力模式与投入巨大人力物力获取的实际观测数据,通过科学的方法将二者有机结合,逐步逼近客观实际。它已经成为地球系统模拟和预测研究不可或缺的部分,也是显著提升我们对地球系统认知和预测能力最重要的因素之一。然而,数据同化技术的理论知识涉及面非常广泛,它不仅需要对数值模式、计算编程,以及气象学和海洋学有深入的理解,同时还需要熟悉一些数学和统计学理论,包括矩阵计算、变分泛函,以及控制论中的系统辨识和状态估计等。由于数据同化技术的跨学科特性和计算机应用的复杂性,入门存在一定的难度。目前国内在这一领域的参考资源相对匮乏,这在一定程度上限制了该技术在国内的普及和应用。

  《集合滤波数据同化方法及其应用》(唐佑民等编著. 北京:科学出版社,2024.6)基于本人团队及成员多年的教学和科研成果编著,旨在为有志于从事数据同化相关研究的学生和青年工作者提供一个由浅入深的指引。

  本人从20 多年前就开始从事大气、海洋数据同化研究工作。当年,我在不列颠哥伦比亚大学攻读博士学位,研究的课题是发展一个厄尔尼诺-南方涛动(ENSO)耦合模式。当我发展了一个海洋动力和神经网大气的耦合杂交模式并用于ENSO 预报时,遇到了预报初始化的挑战。为了提高预报技巧,我接触了海洋数据同化,当时采用的方法也从简单的最优插值(OI)和三维变分(3D-Var),发展到了四维变分(4D-Var)和集合卡尔曼滤波器(EnKF)。之后的20 多年,我一直从事该领域的相关研究,在国际刊物上发表了150 多篇专业论文,承担了数个国家级科研项目。我们发展的同化方法先后应用到加拿大气候模拟与分析中心(CCCma)的气候业务化模式和中国的国家海洋环境预报中心(NMEFC)的业务化模式。

  本人先后在加拿大和中国的高校任教,培养了一批从事海洋数据同化的一线科研人员,很多已成为我国海洋数据同化领域的中坚力量,其中就包括本书的另一主要编著者沈浙奇。沈浙奇从浙江大学数学系博士毕业之后就加入我的团队,从事数据同化理论方法和应用的研究,主要的研究成果包括:在集合卡尔曼滤波器和粒子滤波器的基础上发展了几种新的滤波器方法,发展了耦合同化和参数估计的方法等,主持和参与了多个数据同化方面的国家级课题。本书的其他编著者伍艳玲、高艳秋、李熠、李晓静和侯美夷,也都是我们团队培养的优秀青年科研工作者,活跃于国内海洋数据同化相关科研和教育一线,陈溢豪和肖瑶是我在河海大学指导的在读博士研究生,从事数据同化相关课题研究。

  本书详细讨论了目前常用的各种顺序数据同化方法的科学思想和基本原理,以及它们在具有高维特性的地球系统中的应用。涵盖的方法包括从最优插值到卡尔曼滤波器的最优估计方法,以及从卡尔曼滤波器衍生出来的集合卡尔曼滤波器、集合转移卡尔曼滤波器和sigma 点卡尔曼滤波器等集合方法,也包括基于贝叶斯公式的粒子滤波器算法。本书进一步介绍了在耦合同化背景下的一些挑战和进展,以及集合滤波器在目标观测中的应用现状和前景。本书的重点在于阐明每个方法背后的基本思想,包括:①算法的推导和基本原理;②在一个简化动力系统中的应用;③每种方法的基本假设和应用限制;④不同方法之间的联系;⑤每种方法的优缺点。

  本书的前4 章为数据同化的数学基础和基本方法,着重介绍了卡尔曼滤波器和集合卡尔曼滤波器,由唐佑民、沈浙奇执笔;

  第5 章介绍了集合卡尔曼滤波器在实际应用中需要考虑的一些问题,包括局地化、协方差膨胀和误差估计等,由唐佑民、沈浙奇、陈溢豪、肖瑶执笔;

  第6 章引入了集合卡尔曼滤波器的衍生方法,即在卡尔曼滤波器的基础上发展而来的其他滤波器方法,由沈浙奇、高艳秋执笔;

  第7 章介绍的sigma 点卡尔曼滤波器,是我们团队率先引入地球科学领域的一种方法,由唐佑民、沈浙奇、肖瑶执笔;

  第9 章是集合数据同化方法在估计模式参数方面的一些基础知识和前沿进展,由沈浙奇、高艳秋执笔;

  第10 章介绍强耦合同化,银河官方官网探讨了同化方法在耦合模式中应用面临的一些前沿问题,由李熠、沈浙奇执笔;

  第11 章介绍的目标观测指的是一种观测设计策略,旨在寻找最优的观测点或区域,通过在这些观测点或区域增加观测,通过资料同化,以减小初始条件的不确定性,从而最大限度地提高模式预测技巧,由伍艳玲、李晓静、侯美夷执笔。

  本书的特色是强调这些同化方法的实际应用,基于几个简单的理论模式(如Lorenz63 模式、Lorenz96 模式等),给出了使用不同方法开展数据同化的理想试验的代码。代码基于python 软件编写,大多数只使用NumPy 等基础数值计算模块,直接输入python 编译器即可执行。这些试验有助于缺乏相关知识背景的初学者直观地了解数据同化的流程和效果。本书提供的数据同化方法相关子程序也可以稍加修改移植到其他数值模式中运行,因此本书也是从事相关工作的研究人员非常实用的参考工具。

  本文摘编自《集合滤波数据同化方法及其应用》(唐佑民等编著. 北京:科学出版社,2024.6)一书“前言”“序”,有删减修改,标题为编者所加。