Motivations
Le Centre d’Animation et d’Expertise Technique (CAET) est un groupe de travail qui a pour vocation principale de travailler à la définition et à la mise en œuvre des standards qui doivent présider à la constitution de la base des données d’observation de l’atmosphère harmonisée, réclamée par l’Infrastructure de Recherche ACTRIS-FR.
Ce groupe de travail rassemble des personnels issus de sites d’observation de l’atmosphère nationaux dont les principaux sont
- le CO-PDD (station Cézeaux-Opme-Puy De Dôme)
- l’OPAR (Observatoire de Physique de l’Atmosphère de la Réunion)
- l’OHP (Observatoire de Haute Provence)
- P2OA (Plateforme Pyrénéenne d‘Observations Atmosphériques)
- le SIRTA (Site Instrumental de Recherche par Télédétection Atmosphérique)
- ATOLL (ATmospheric Observations in liLLe)
- la météopole (CNRM à Toulouse)
ainsi que les chambres de simulation
- CESAM (Chambre de Simulation Atmosphérique Multiphasique)
- HELIOS (Chambre de simulation atmosphérique à irradiation naturelle d’Orléans)
et
- le pôle national de données et de services AERIS.
Des ingénieurs en développement informatique, en administration système, en gestion de la donnée ou en calcul scientifique et des ingénieurs en instrumentation travaillent ensemble avec le souci de répondre aux besoins de la communauté scientifique ACTRIS-FR en coordination avec le centre de données et de service AERIS.
C’est la diversité des compétences et des métiers représentés qui permet à ce groupe d’avoir une vision complète des problèmes qui se posent dans toute leur diversité, depuis le fonctionnement des instruments jusqu’à la standardisation des données en passant par l’acquisition, le traitement, le contrôle qualité, le formatage, l’archivage et enfin la diffusion.
Ces travaux sur les données entrent dans le cadre plus large des efforts menés au niveau national pour converger vers des solutions communes. Le CAET s’applique ainsi à développer et à mettre en œuvre des outils nécessaires au travaux de la communauté scientifique, en tenant compte des exigences des réseaux thématiques européens, et en intégrant les réflexions menées au sein des différents pôles de données d’observation nationaux et les directives européennes. L’objectif principal reste d’être en mesure de mettre à disposition un catalogue de données d’observation de qualité sur le long terme, destiné à l’exploitation scientifiques et compatible avec les technologies d’interopérabilité d’aujourd’hui.
Sites de mesure (ou plateformes d’observation)
L’ensemble des sites d’observation nationaux impliqués dans la constitution de la base ACTRIS-FR.
Travaux
L’informatique est l’outil incontournable pour réaliser les différentes opérations liées à la gestion des données. Les principaux travaux réalisés par le CAET sont des développements informatiques qui ont pour objectifs de constituer un système d’information mettant en relation les sites d’observation, les centres de données, les réseaux thématiques et les utilisateurs afin de construire la base de paramètres scientifiques d’observation de l’atmosphère ACTRIS-FR documentées et accessible.
Instruments et mesures
Au travers des données qu’il prend en charge, le CAET s’intéresse également aux instruments d’observation qui les produisent en particulier au travers des ingénieurs instrumentalistes et des développements informatiques nécessaires à l’acquisition. Un des enjeux est de mettre en œuvre des systèmes de mesures continus les meilleurs possibles, condition nécessaire pour pouvoir constituer in fine une base de données de produits scientifiques bruts et dérivés de qualité.
Le CAET peut faciliter les échanges techniques sur les instruments ou les systèmes d’acquisition communs à plusieurs sites et émettre des recommandations sur la manière de réaliser les acquisitions (numérisation, stockage, automatisation) pour faciliter la construction de la base de données (volume de stockage, nombre de fichiers, nomenclature, horodatage, …).
Flux de données
C’est la machinerie qui permet de collecter les données depuis les instruments vers les centres de données. Elle prend les données en main dès les systèmes d’acquisition pour les transmettre aux systèmes d’archivages locaux (base relationnelle, arborescence de fichiers) puis vers les centres de données nationaux, puis le cas échéant vers des réseaux thématiques internationaux. Les outils utilisés ont été choisis ou développés par les ingénieurs en fonction de l’historique et de l’architecture informatique présente sur chaque site avec le souci d’être en mesure de supporter les contraintes fortes imposées par un fonctionnement continu 24h/24h doublé de plus en plus fréquemment par une livraison en quasi-temps réel (surveillance).
Normalisation des données
Obtenir une base harmonisée passe par le choix d’un format si possible unique. Dans le cadre national ACTRIS-FR le CAET recommande le format NetCDF 4 en suivant les conventions CF (Climate and Forecast) et ACDD (Attribute Conventions Dataset Discovery), ainsi que du vocabulaire AERIS basé sur le thesaurus GCMD (Global Change Master Directory, https://gcmd.earthdata.nasa.gov/). Il présente l’avantage d’être largement répandu dans notre communauté scientifique. Ce format binaire et ouvert est autodocumenté c’est-à-dire qu’il permet d’adjoindre des informations annexes aux données (métadonnées) utiles à leur exploitation.
La convention CF permet de normaliser principalement le vocabulaire associé à la documentation des variables, la norme ACCD est un complément qui formalise les métadonnées décrivant globalement le jeu de données et le GCMD est un dictionnaire de mots-clés faisant autorité dans la description des données.
L’application de ces normes et conventions permettent de faire le lien avec les standards de métadonnées internationaux (Dublin core, ISO19115 …) et d’être en mesure de manipuler les données avec de nombreux langages informatiques. Cela répond également aux principes FAIR (Findable, Accessible, Interoperable, Reusable) qui facilitent la découverte, l’accès, l’échange et la réutilisation des données
Mutualisation d’algorithmes de traitements
Pour obtenir une base de données ACTRIS-FR de référence la plus homogène possible, en particulier pour les produits dérivés des données brutes, il est nécessaire de mettre en place des filières de traitement communes aux données de l’ensemble les sites d’observation ACTRIS-FR.
Cet exercice implique une collaboration étroite entre les ingénieurs des observatoires, des centres de données et des PI, responsables des instruments avec un objectif : mettre en production des codes parfois issus des laboratoires, tout en préservant la possibilité pour les scientifiques de les faire évoluer. Cela passe par un cahier des charges établi en commun et l’utilisation d’un outil de versionnement pour s’assurer d’avoir un code de référence.
Exemple de filières :
- ELIFAN, pour la classification de couverture nuageuse à partir des données d’imageurs, H2O, traitement (nouveaux développements)
- EDDY PRO, pour le calcul des flux turbulents (paramétrisation)
- DESMAN, radar profileur de vent
- GARRLIC, propriétés optiques et microphysique des aérosols (adaptation et refactorisation).
Mise à disposition et diffusion de données
Depuis sa création ACTRIS-FR s’appuie sur AERIS, le pôle de données et de services Atmosphère de l’Infrastructure de Recherche Data Terra, pour constituer sa base de données. Ses ingénieurs experts dans la gestion de la donnée sont chargés pour la communauté ACTRIS-FR de différents travaux principalement de trois ordres
- L’opérationnalisation des filières de traitement mises en place par les groupes de travail d’ACTRIS-FR
- Le stockage pérenne et la diffusion des données vers de la communauté scientifique et les réseaux/bases internationaux
- La création des portails d’informations de ses activités et d’accès au catalogue des données de l’infrastructure.
La mise sur pied du métacatalogue fait partie des chantiers les plus marquants avec le référencement de l’ensemble des données collectées des sites d’observation ACTRIS-FR et la construction d’un portail web donnant accès aux informations utiles sur les différents jeux de données et le moyen de les récupérer.
La complexité de ce projet tient en partie au fait qu’il intègre plusieurs sous-projets
- Documentation descriptive des données
- Développement d’outils de communication avec les sites hébergeant les données
- Développement d’outils de mise à jour du métacatalogue
- Développement des outils de consultation et de récupération des données (recherche, téléchargement, …)
Il implique tous les acteurs d’ACTRIS-FR, qu’ils soient PI, responsables instrumentaux ou scientifiques utilisateurs des données, ingénieurs développeurs web, interaction avec la communauté nationale.
Le portail et le métacatalogue se dotent chaque année de nouvelles fonctionnalités pour répondre au mieux aux besoins de la communauté scientifique et améliorer l’accès et la visibilité des données. Il est en effet un des moyens de mise en valeur et de diffusion des données selon les principes FAIR préconisés par l’Europe, des paramètres proposés par ACTRIS-FR.
Actions diverses
Indépendamment des travaux réalisés pour la constitution de la base de données ACTRIS-FR, le CAET mène des développements spécifiques aux sites d’observation, mutualise et partage des connaissances au travers de présentations ou d’action de formation. Le colloque annuel d’ACTRIS-FR est l’occasion pour les ingénieurs de se retrouver et d’échanger sur différents sujets dans le cadre d’ateliers techniques et de diffuser auprès des participants des informations sur l’évolution de notre environnement technologique et les bonnes pratiques en matière de gestion de données.
Highlights
Porté par le pôle de données AERIS, le métacatlogue est un des chantiers les plus important, les plus complexe et techniquement lourd.
C’est le cœur du système de référencement et de mise à disposition des données de la base ACTRIS-FR. C’est un outil de recherche et de récupération des données, et une vitrine permettant de découvrir les paramètres proposés par ACTRIS-FR. Il est en effet un des moyens de mise en valeur et de diffusion des données selon les principes FAIR préconisés par l’Europe.
La complexité de ce projet tient en partie au fait qu’il intègre plusieurs sous-projets
- Documentation descriptive des données
- Développement d’outils de communication avec les sites hébergeant les données
- Développement d’outils de mise à jour du métacatalogue
- Développement des outils de consultation et de récupération des données (recherche, téléchargement, …)
Il implique tous les acteurs d’ACTRIS-FR, qu’ils soient PI, responsables instrumentaux ou scientifiques utilisateurs des données, ingénieurs développeurs web, interaction avec la communauté nationale.
Responsable
Christophe Boitel : christophe.boitel@lmd.polytechnique.fr
Guillaume Brissebrat : guillaume.brissebrat@ipsl.fr