Article accepté dans le cadre du projet ANR SmartFCA
L’article “Exploiting Formal Concept Analysis for Data Modeling in Data Lakes” co-écrit par Anes BENDIMERAD, Romain MATHONAT, Youcef REMIL et Mehdi KAYTOUE a été accepté et publié à la conférence Concepts 2024 qui réunit les experts mondiaux travaillant sur les structures conceptuelles.
Cet article découle du projet mené en collaboration avec des universités et l’ANR (l’Agence Nationale de Recherche) au sein du projet SmartFCA et se penche sur la structuration et l’optimisation du schéma de données dans les lacs de données (data lakes) à l’aide d’une structure conceptuelle d’excellence : le treillis de concepts.
Les lacs de données permettent de stocker rapidement des volumes massifs de données brutes et hétérogènes, provenant de diverses sources et destinées à des analyses avancées. Mais cette multitude de données est stockée de manière non structurée (il n’y a pas de hiérarchie ou d’organisation entre les différents éléments de données) et rend difficile leur exploitation.
Chez Infologic, notre lac de données est un élément clé dans le cadre de notre système de maintenance prédictive, permettant l’agrégation de données collectées en continu à partir de diverses sources et à faible coût. En effet, les données peuvent être facilement ajoutées par différentes équipes, sans qu’il soit nécessaire de définir un schéma de données.
Cet article présente une approche pratique de visualisation et d’analyse des données basée sur l’Analyse formelle de concepts (AFC) et la fouille de données, dans le but de nettoyer, organiser et concevoir systématiquement les structures de données au sein d’un lac de données. L’objectif étant de réorganiser ces données pour mieux les exploiter et in-fine garantir une haute qualité de service.