Qu’est-ce que la data synthétique ?

Le mot « synthétique » est utilisé ici dans le sens du mot anglais « synthetic », c’est-à-dire « faux, simulé » (comme un tissu synthétique), et non dans le sens français de « synthèse, résumé ».

Les organisations doivent respecter de nombreuses règles en matière de confidentialité et d’intégrité des données. Au lieu d’ouvrir leurs bases de données réelles, elles peuvent fournir à leurs chercheurs et équipes des jeux de données (datasets) synthétiques qui ressemblent aux données réelles mais ne contiennent aucune donnée réelle ou confidentielle. L’équipe pourra tester ses modèles dessus et une fois prêts, ils pourront être appliqués aux vraies données.

D’ici 2024, 60% des data sets utilisés dans les projets IA et Analytics devraient être synthétiques.

Cabinet Gartner

L’intérêt est notamment élevé pour la recherche médicale où, même en anonymisant 40 variables différentes d’un fichier, on peut toujours ré-identifier quelqu’un, par exemple s’il prend un médicament spécifique pour une maladie très rare. La data synthétique résout ce problème tout comme elle permet de modifier un jeu de données de test sans altérer les données réelles, afin de combattre des biais algorithmiques par exemple.

Jusqu’ici, le fait de restreindre l’accès à la data à quelques rares personnes de confiance n’encourageait pas l’usage globalisé dans l’entreprise et retardait l’innovation. Avec ce type de data set synthétique, on peut non seulement travailler mais communiquer sur ses résultats sans crainte d’altérer ou de divulguer la donnée réelle.

Une équipe de l’école MIT Sloan a d’ailleurs créé un outil gratuit appelé « Synthetic Data Vault » pour générer de faux data sets à partir de vraies données si vous souhaitez commencer à expérimenter la data synthétique : DataCebo

LEAVE A RESPONSE

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *