L'atelier Valorisation de la donnée des Rencontres régionales PIGMA 2023
Animation, Données, Rencontres régionales, Toutes
01/07/2023
Retour sur l’atelier Valorisation de la donnée au programme de l’après-midi des Rencontres régionales PIGMA 2023 pour échanger sur la mise en place d’un label qualité et la datavisualisation dans PIGMA.
L’atelier dédié à la thématique Valorisation de la donnée, durant les Rencontres régionales PIGMA 2023, a accueilli une soixantaine de participants.
En introduction, après avoir remercié les participants nombreux à l’atelier, l’équipe PIGMA a rappelé l’ordre du jour issu du dernier groupe de travail Open data PIGMA de novembre 2022.
Vers un label de qualité de la donnée
L’équipe a résumé ces travaux qui font suite à un constat d’un nombre conséquent de données ouvertes diffusées dans la plateforme notamment suite à l’ouverture des données avec la loi Lemaire (octobre 2016) et qui sont peu réutilisées. L’équipe PIGMA a soulevé la nécessité de monter en qualité pour valoriser ces données, pour leur meilleure réutilisation et diffusion.
Pour obtenir un indicateur de qualité, l’équipe PIGMA s’est basée sur des références nationales en retenant des critères qui puissent faire l’objet de traitement automatique, être communs à toutes les données, soient appréciables par des non spécialistes de la donnée et présents dans le modèle du jeu de données PIGMA.
L’indicateur de qualité concerne à la fois la métadonnée (fiche d’information sur la donnée) et la donnée elle-même. Une méthode commune avait été définie, testée sur 5 premiers jeux de données et présentée au dernier groupe de travail Open data PIGMA. Cette méthode est issue de DataGouv, et du Cerema. Ce sont les résultats de mesure de la qualité des métadonnées et des données testées qui ont servi de base pour le calcul de la note finale. La présentation et l’intitulé du système de label restaient à définir.
Un certain nombre d’actions sont au programme de 2023 pour mettre en place ce label de qualité.
Etape intermédiaire : les travaux de contrôle de la qualité des données
Dans cette seconde partie , l’équipe PIGMA a exposé la méthode et les premiers résultats des travaux de qualification des données du catalogue PIGMA.
Ces travaux ne sont pas nouveaux et s’inscrivent dans la continuité des travaux de synthèse de la norme ISO 19157, menés par le Cerema, et du groupe de travail QuaDoGéo du CNIG.
En référence aux deux axes de la qualité de la donnée, l’équipe PIGMA a arrêté une stratégie consistant à définir deux niveaux de qualité (en premier la qualité des métadonnées, en second la qualité de la donnée) puis à prioriser les jeux de données à qualifier.
Au total, 530 jeux de données de couverture régionale sont concernés par le champ d’étude. Les travaux sont en cours.
Le label qualité PIGMA
À partir des cinq critères qualité des métadonnées proposés par DataGouv et retenus par PIGMA, cinq champs correspondants au modèle PIGMA ont été identifiés. Il s’agit de la description, la mise à jour, la licence, les métadonnées des ressources et la couverture spatiale des données.
À partir de ces informations, deux niveaux pour le label qualité ont été définis, un label minimal, centré sur la qualité des métadonnées, et un label optimal, analysant la qualité des métadonnées de façon plus poussée et la qualité de la donnée.
La ressource doit être disponible dans des formats réutilisables et être fraîche ou millésimée.
Automatisation du contrôle qualité et premiers résultats
Ces critères ont été transposés sous forme d’un script FME, récupérant les jeux de données étudiés et analysant chacun des critères et sous-critères définis.
L’obtention du label minimal de qualité ne dépend pas d’une notation globale, avec un seuil au-dessus duquel le label serait attribué, comme cela avait été défini en amont du stage. À la place, le label minimal est attribué à tous les jeux de données qui remplissent l’ensemble des critères et sous-critères, sans exception.
Sur 530 jeux de données étudiés, seuls 71 obtiennent le label minimal, ce qui représente 13% du total. Ainsi, 459 jeux de données sont rejetés par le script de qualification.
Le faible nombre de jeux de données labellisés pousse à mettre en œuvre des méthodes de montée en qualité des données, soit par modification directe des valeurs renseignées par les administrateurs de PIGMA, soit par un retour fait au producteur sur la qualité des jeux de données concernés.
Des pistes d’intégration ont également été proposées. Le label pourrait s’insérer dans le portail de recherche, à proximité de la vignette du jeu de données et afficher, au survol de la souris, un encart rappelant les critères remplis ayant permis l’obtention du label (champs de base, format réutilisable et fraîcheur de la donnée). Comme cet encart ne serait visible que si le jeu de données est labellisé, tous les critères apparaîtraient nécessairement remplis sur l’encart. Ainsi, le label permettrait bien de mettre en valeur la qualité d’un jeu de données, sans déprécier les autres jeux de données de la plateforme.
Les travaux à finaliser concernent l’amélioration de la qualité des jeux de données, la qualification du label optimal et le bilan du processus de qualification.
Feuille de route de la datavisualisation de la plateforme PIGMA
L’équipe PIGMA a rappelé que le dernier groupe de travail Open data PIGMA proposait d’intégrer un premier niveau de service dataviz dans la plateforme PIGMA. La proposition du socle minimal à intégrer concernait l’intégration d’un outil dataviz dans le catalogue PIGMA.
Il a été décidé également que les dataviz ne se feraient pas à la volée et ne pourraient être réalisées que par les administrateurs de la plateforme et éditeurs des organisations pour des raisons techniques et de connaissance des données.
Suite aux recueils des besoins et hiérarchisation des cas d’usages/fonctionnalités une feuille de route a été définie. Cette feuille de route dresse les fonctionnalités du premier niveau de services ainsi qu’une hiérarchisation des fonctionnalités ressorties lors de l’atelier dataviz d’avril 2023.
Fabien Guyomard, Syndicat mixte d’Etudes et d’Aménagement de la Garonne (SMEAG), partenaire PIGMA et utilisateur également de la solution OneGeo Suite (sur laquelle repose la plateforme PIGMA) a ensuite fait une présentation de son outil de dataviz mis en place suite à la refonte de l’observatoire Garonne crée en 2015.
Il a conclu son intervention en indiquant que la dataviz donne un réel apport visuel pour les utilisateurs.
(Télécharger la présentation de Fabien Guyomard, SMEAG)
L’équipe PIGMA a conclu cet atelier sur le besoin prégnant de la qualité de la donnée, au cœur de tous les métiers et thématiques, sans laquelle il n’est pas possible de bien la réutiliser/valoriser. Il est donc indispensable de travailler sur la qualité des données (mise à jour, structuration..) en amont.
L’équipe PIGMA a rappelé que la dataviz tient un rôle important dans la communication des données mais nécessite une qualité des indicateurs pour qu’elle soit cohérente et claire, un travail sur les données pour pouvoir les faire parler.
Enfin, l’équipe PIGMA a ouvert la question sur la combinaison des travaux de qualification en cours avec les nouvelles technologies qui arrivent (IA, script automatique) afin de répondre au mieux aux besoins de la plateforme et des utilisateurs.