Ce dépôt contient des codes Python permettant de consolider les données sur les organisations et leurs bilans d'émissions de gaz à effet de serre pour la France. Des travaux sur d'autres pays pourront être entrepris par la suite.
Les données consolidées proviennent essentiellement de l'INSEE, pour la liste des personnes morales (entreprises, collectivités, services de l'état, associations) et leurs caractéristiques, et de l'ADEME, pour les bilans d'émissions publiés par les organisations.
Les données consolidées sont ensuite utilisées dans la section France de notre site : https://opencarbonwatch.org/fr/france.
Les contributions pour intégrer de nouvelles données pertinentes sont les bienvenues. Quelques propositions d'améliorations sont décrites dans les tickets déjà créés. Ne pas hésiter à en créer de nouveaux pour lancer les discussions.
Exécuter le script download_data.py
. Celui-ci crée un sous-dossier input
dans lequel il télécharge les fichiers déjà disponibles publiquement en open data sur des sites de référence :
- les unités légales et les établissements de la base Sirene de l'INSEE,
- la composition des intercommunalités consolidée l'INSEE,
- les populations légales par commune établies par l'INSEE,
- la nomenclature d'activités française (NAF),
- les bilans d'émissions de gaz à effet de serre publiés via l'ADEME.
- Exécuter le script
find_populations.py
qui construit un fichieroutput/populations.csv
avec les populations légales des régions, départements, communes, intercommunalités et autres collectivités territoriales. Ces populations sont utilisées pour déterminer les collectivités territoriales concernées par l'obligation de réaliser et publier leur bilan. - Exécuter le script
curate_organizations.py
qui construit un fichieroutput/organizations.csv
avec les données sur les personnes morales nécessaires à la suite du traitement. - Exécuter le script
collate_assessments.py
qui consolide les bilans publiés.
Le dossier /data/
contient des données fait-maison embarquées avec le code source.
Le fichier manual_assessment_organization.csv
a été construit manuellement. Il donne les liens entre un numéro de bilan d'émissions (identifiant sur le site de l'ADEME) et un numéro SIREN de l'organisation à laquelle il correspond. C'est un travail conséquent (environ 300 correspondances) qui provient d'une interprétation reposant sur le nom de l'entité ayant soumis le bilan. Il peut contenir des erreurs (ouvrir un ticket pour nous l'indiquer). Sur la plateforme de l'ADEME, la saisie d'un numéro SIREN n'est notamment pas obligatoire pour les services de l'Etat, qui sont donc sur-représentés dans ce fichier.
Le fichier manual_populations.csv
a été construit manuellement. Il donne les populations pour les collectivités territoriales qui ont été créées récemment et ne figurent pas encore dans les fichiers consolidés de l'INSEE. Les données ont été trouvées sur Wikipédia.
Le fichier manual_regions_siren.csv
a été construit manuellement. Il donne la correspondance entre les codes des régions et le numéro SIREN de la personne morale associée. Les données ont été trouvées sur Wikipédia.
Le fichier mayotte_2017.csv
a été construit à partir des données de populations légales 2017 de Mayotte produites par l'INSEE et disponibles sur la page https://www.insee.fr/fr/statistiques/3291775.