GTD – Données

GTD – Données

Motivations

Le Groupe de Travail sur les Données (GTD) a pour vocation initiale de travailler à la définition et la mise en œuvre des standards qui doivent présider à la constitution de la base des données d’observation de l’atmosphère harmonisée, réclamée par l’Infrastructure de Recherche ACTRIS-FR.

Ce groupe de travail rassemble des personnels issus principalement des grands sites d’observation nationaux,  CO-PDD (station Cézeaux-Opme-Puy  De  Dôme),  l’OPAR (Observatoire de Physique de l’Atmosphère de la Réunion), l’OHP (Observatoire de Haute Provence), P2OA (Plateforme Pyrénéenne d‘Observations Atmosphériques), le SIRTA  (Site  Instrumental  de Recherche par Télédétection  Atmosphérique), la chambe CESAM (Chambre de Simulation Atmosphérique Multiphasique), la chambre HELIOS (Chambre de simulation atmosphérique à irradiation naturelle d’Orléans) et du centre de données national AERIS.

Des ingénieurs en développement informatique, en administration système, ou en calcul scientifique et des ingénieurs en instrumentation travaillent ensemble avec le souci de prendre en charge les demandes en matière de données de la communauté scientifique ACTRIS-FR tout en tenant compte des contraintes techniques des centres de production d’AERIS.

C’est la diversité des compétences et des métiers représentés qui permet à ce groupe d’avoir une vision large et complète des problèmes qui se posent dans toute leur diversité depuis le fonctionnement des instruments jusqu’à la standardisation des données en passant par l’acquisition, le traitement, le formatage et l’archivage.

Ces travaux sur les données entrent dans le cadre plus large des efforts menés au niveau national pour converger vers des solutions communes. Le GTD s’applique ainsi à mettre en œuvre et à développer les outils cohérents avec les besoins de la communauté scientifique, les exigences réseaux thématiques, les réflexions des différents pôles de données d’observation nationaux et les directives européennes. L’objectif principal reste d’être en mesure de mettre à disposition un catalogue des données d’observation long terme de qualité, destiné à l’exploitation scientifiques et compatible avec les technologies d’interopérabilité d’aujourd’hui.

Sites de mesure (ou plateformes d’observation) 

L’ensemble des sites d’observation contribuant à l’alimentation de la base ACTRIS-FR

Travaux

L’informatique est l’outil incontournable pour réaliser les différentes opérations liées à la gestion des données. Les principaux travaux réalisés par le GTD sont des développements informatiques qui ont pour objectifs de constituer un système d’information qui met en relation les sites d’observation, les centres de données et de traitement et les utilisateurs, et de produire la base de paramètres scientifiques d’observation de l’atmosphère ACTRIS-FR.

Instruments et mesures

Le GTD a vocation à s’intéresser à toutes les données fournies par les sites instrumentés d’ACTRIS-FR, et donc aux instruments qui les produisent en particulier au travers des instrumentalistes et des développements liés à l’acquisition. Un des enjeux est d’obtenir en continu les meilleures mesures possibles, condition nécessaire pour pouvoir constituer in fine une base de données de produits bruts et dérivés de qualité.

Le GTD peut faciliter les échanges techniques sur les instruments ou les systèmes d’acquisition communs à plusieurs sites et émettre des recommandations sur la manière de réaliser les acquisitions (numérisation, stockage, automatisation) pour faciliter la construction de la base de données (volume de stockage, nombre de fichiers, nomenclature, horodatage, …).

Flux de données

C’est la machinerie qui permet de faire circuler les données depuis les instruments jusqu’aux centres de données. Elle prend les données en main dès les systèmes d’acquisition pour les transmettre aux systèmes d’archivages locaux (base relationnelle, arborescence de fichiers) puis vers les centres de données nationaux, accessoirement vers des réseaux thématiques. Les outils utilisés ont été choisis ou développés par les ingénieurs en fonction de l’historique et de l’architecture informatique présente sur chaque site avec le souci d’être en mesure de supporter des contraintes fortes imposées par un fonctionnement continu 24h/24h doublé de plus en plus fréquemment par une livraison en quasi-temps réel (surveillance).

Formatage et documentation des données

Obtenir une base harmonisée passe par le choix d’un format si possible unique. Dans le cadre national ACTRIS-FR le GTD recommande le format NetCDF 4 en suivant les conventions CF (Climate and Forecast) et ACDD (Attribute Conventions Dataset Discovery). Il présente l’avantage d’être largement répandu dans notre communauté scientifique. Ce format binaire et ouvert est autodocumenté c’est-à-dire qu’il permet d’adjoindre des informations annexes aux données (métadonnées).

La convention CF permet de normaliser principalement le vocabulaire associé à la documentation des variables et la norme ACCD est un complément qui formalise les métadonnées décrivant globalement le jeu de données. Cette norme permet de faire le lien avec les standards de métadonnées internationaux (Dublin core, ISO19115 …). Ce format reconnu par de la quasi-totalité des langages informatiques que nous utilisons, facilite la manipulation des données et la transmission d’informations.

Mutualisation d’algorithmes de traitements

Pour obtenir une base de données ACTRIS-FR homogène, en particulier des produits dérivées des données brutes, il est nécessaire de mettre en place des filières de traitement communes aux données de tous les sites d’observation ACTRIS-FR.

Le GTD est confronté à plusieurs cas de figure :

  1. développement de nouveaux codes pour construire ou reconstruire une filière
  2. travail de paramétrage d’un code existant
  3. adaptation/refactorisation

Cet exercice implique une collaboration étroite entre les ingénieurs des observatoires, des centres de données et des PI, responsables des instruments avec un objectif : mettre en production des codes parfois issus des laboratoires, tout en préservant la possibilité pour les scientifiques de les faire évoluer. Cela passe par un cahier des charges établi en commun et l’utilisation d’un outil de versioning pour s’assurer d’avoir un code de référence.

Exemple de filières: ELIFAN, pour la classification de couverture nuageuse à partir des données d’imageurs, H2O, traitement (nouveaux développements), EDDY PRO, pour le calcul des flux turbulents (paramétrisation), DESMAN, radar profileur de vent et GARRLIC, propriétés optiques et microphysique des aérosols (adaptation et refactorisation).

Mise à disposition et diffusion de données

Voir highlight sur le métacatalogue.

Actions diverses

Indépendamment des travaux réalisés pour la constitution de la base de données ACTRIS-FR, le GTD mène des développements spécifiques aux sites d’observation, mutualise et partage des connaissances au travers de présentations ou d’action de formation. Le workshop annuel d’ACTRIS-FR est d’ailleurs l’occasion pour les ingénieurs de se retrouver dans le cadre d’ateliers techniques.

Highlights

Porté par le pôle de données AERIS, le métacatlogue est un des chantiers les plus important, les plus complexe et techniquement lourd.

C’est le cœur du système de référencement et de mise à disposition des données de la base ACTRIS-FR. C’est un outil de recherche et de récupération des données, et une vitrine permettant de découvrir les paramètres proposés par ACTRIS-FR. Il est en effet un des moyens de mise en valeur et de diffusion des données selon les principes FAIR préconisés par l’Europe.

La complexité de ce projet tient en partie au fait qu’il intègre plusieurs sous-projets

  • Documentation descriptive des données
  • Développement d’outils de communication avec les sites hébergeant les données
  • Développement d’outils de mise à jour du métacatalogue
  • Développement des outils de consultation et de récupération des données (recherche, téléchargement, …)

Il implique tous les acteurs d’ACTRIS-FR, qu’ils soient PI, responsables instrumentaux ou scientifiques utilisateurs des données, ingénieurs développeurs web, interaction avec la communauté nationale.

Responsable

Christophe Boitel christophe.boitel (a) lmd.polytechnique.fr | Guillaume Brissebrat guillaume.brissebrat (a) ipsl.fr

Rechercher