Tuto Première plongée dans l’open data

Parfois, je me dis que vous connaissez peut-être le terme « open data » mais que vous n’avez peut-être jamais osé aller chercher un jeu de données et plonger dedans pour l’interpréter et y trouver une réponse à vos questions. Alors voici un tutoriel pas à pas pour faire exactement cela !

Etape 1 – Trouver un jeu de données qui vous intéresse

Allez sur https://www.data.gouv.fr/fr/

Dès la page d’accueil, vous allez voir des thématiques à la une, souvent liées à l’actualité (en ce moment c’est Agriculture, Energies et Education) mais si elles ne vous parlent pas, tapez simplement quelques mots dans le moteur de recherche en haut à droite. Pour ce tuto, je prendrai le mot « auto-entrepreneur ».

Choisissez et cliquez sur un résultat (jeu de données) qui vous intéresse, moi je vais prendre le premier « Auto-entrepreneurs, par secteur d’activité« .

Etape 2 – Comprendre la fiche du jeu de données

Vous arrivez sur la fiche du jeu de données et devez examiner en priorité 3 choses :

  1. La source (sous « Producteur » à droite) : qui a produit ce jeu de données à l’origine ? est-ce que ce producteur vous semble fiable et pertinent par rapport à ce que vous cherchez ? Ici, c’est l’URSSAF, ça a l’air ok.
  2. La fraîcheur (sous « Dernière mise à jour » à droite) : quand ces données ont-elles été mises à jour pour la dernière fois ? Si les données sont trop anciennes, elles ne vous intéresseront peut-être pas. Ici, la dernière mise à jour date de 2 semaines, ça devrait aller.
  3. Les formats disponibles (onglet « Fichiers » en bas) : si vous voulez exploiter ces données, vérifiez les formats proposés. Par exemple, ici, on a un fichier au format .csv et un autre fichier au format .json, mais pas de format .xls ou .xlsx (pour Excel). Rassurez-vous, on va prendre le CSV.

Ensuite, n’hésitez pas à lire la description du jeu de données pour vérifier qu’il contient ce qui vous intéresse. Vous pouvez aussi aller voir dans l’onglet « Réutilisations » qui va vous donner les applications que d’autres utilisateurs ont pu créer en « réutilisant » ce jeu de données (par exemple une carte en temps réel sur un site web, un graphique dans un article de journal, une appli mobile, etc.). On y trouve souvent des choses passionnantes.

Sur mon jeu de données auto-entrepreneurs, il n’y en a pas mais si vous voulez tester, allez voir cet autre jeu open data sur les bornes de recharge pour véhicules électriques. Il y a pas moins de 27 réutilisations !

Etape 3 – Explorer le jeu de données

A droite du jeu en .csv, cliquez sur « Voir les données ». Cela va vous montrer les données mais souvent avec de très nombreuses pages (même si vous pouvez trier A-Z Z-A les colonnes en cliquant sur leur titre). S’il est là, cliquez sur le bouton « Explorer les données » en bas à droite sous le tableau.

Vous arriverez sur une vue ressemblant à un tableur (auquel vous êtes sans doute plus habitués). Et bien sûr, vous pouvez télécharger le fichier .csv complet en cliquant sur le bouton en bas à droite.

Etape 4 optionnelle – Traiter le fichier

Personnellement, je préfère souvent télécharger le fichier .csv complet et le traiter dans un tableur genre Google Sheet ou Excel, ne serait-ce que parce que j’aime bien avoir toutes les fonctionnalités de tri possibles et faire des graphiques. Par exemple, ici j’aimerais bien faire un graphique montrant la répartition des auto-entrepreneurs économiquement actifs (qui ont déclaré un chiffre d’affaires positif) et ne prendre en compte que le total existant à la dernière mise à jour.

Ma petite méthode si ça vous intéresse :

  1. J’ouvre le .csv dans un nouveau Google Sheet (en faisant Importer et en faisant attention à bien choisir le séparateur point-virgule).
  2. J’ai tendance à mettre en couleur les colonnes qui m’intéressent (surtout si le fichier a de nombreuses colonnes), voire à renommer quelques intitulés obscurs.
  3. Je sélectionne ma ligne 1 avec les intitulés des colonnes et j’actionne la fonction Filtre sur toutes.
  4. Je filtre la colonne « annee » pour ne garder que « 2023 » et la colonne « trimestre » pour n’avoir que le « 2 ».
  5. Enfin, je trie la colonne « economiquement_actif » de A à Z pour voir les secteurs du plus petit nombre d’AE au plus grand nombre.

Maintenant je peux créer mon graphique, je teste d’ailleurs 2 types de graphiques (que vous avez pu voir cette semaine sur mon Linkedin) : un bar chart et un bon vieux camembert.

Astuce : ici les noms des secteurs sont très longs alors je crée mon graphique (où tout se superpose par manque de place), je le copie dans une autre feuille du même tableur et je l’agrandis au maximum avant de l’enregistrer au format image.

J’espère que ce tutoriel vous aura aidé et surtout qu’il vous incitera à plonger dans l’open data. Il y a tellement de données disponibles gratuitement sur data.gouv.fr mais aussi sur d’autres sites. Ce serait dommage de ne pas en profiter !

PS : Je ne suis pas experte en data. Du coup, si vous voyez des choses importantes à rajouter ou à corriger dans ce tutoriel, n’hésitez pas à commenter ou à m’envoyer un e-mail rapide ! Merci 🙂

LEAVE A RESPONSE

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *