Projet Challege Open Data

Pollution de l’air : Notre air est-il encore respirable ?

BELGRID Younes - KAHLAOUI Ismail- MAFTAH EL KASSIMY Hajar - OUBAAMRANE Amine - OUZZINE Aya

Présentation du projet

Le projet Challenge Open Data a pour but de développer une application Web de visualisation interactive de données.
La fin serait alors d'assurer non seulement une exploration visuelle pertinente et ergonomique des jeux de données quelle que soit leur volumétrie, mais aussi l'implication de l'utilisateur afin de faciliter l'exploration. Ainsi, la transmission des informations serait assez fluide en donnant vie aux données et le cerveau parviendrait plus aisément à absorber de grandes quantités d’informations.

L'un des pilliers importants de ce projet est le choix d'une thématique qui relève du développement durable et de la responsabilité sociale. Ce projet sous-entend une sensibilisation afin de tenir compte des impacts sociaux et environnementaux de nos activités quotidiennes.

Choix de l'idée

La pollution de l'air est un danger potentiel pour la santé publique auquel on ne peut échapper. Aujourd'hui, il est bien connu que l'exposition à un air pollué augmente les risques de maladies cardiovasculaires à long terme et de pathologies respiratoires à court terme. Son caractère insidieux réside dans le fait qu'elle passe inaperçue au-delà des défenses du corps humain qui inspire treize mille litres d'air par jour et attaque les poumons, le coeur et le cerveau. Ses armes meurtrières sont les particules respirables toxiques que le système immunitaire essaie désespérément de défendre.

Les polluants de l'air se présentent sous forme de gaz et de particules respirables en suspension dans l'air. Plus ces dernières sont petites, plus elles peuvent être toxiques parce qu'elles pénètrent profondément dans le système respiratoire et peuvent même atteindre le système cardiovasculaire. Leur nomination commune est PM, l'abréviation du terme anglais Particulate Matter dont on va aborder par la suite les trois types : PM10 (diamètre inférieur à 10 micromètres), PM2,5 (diamètre inférieur à 2,5 micromètres) et PM1. On note que le cheveu humain a un diamètre qui varie entre 50 et 150 micromètres.

Luttons contre cet invisible tueur!

Description des jeux de données

Les principaux jeux de données choisis sont les suivants :

  Mesures de concentration des sept principaux polluants dans différentes locations dans le monde : PM1, PM2.5, PM10, l’ozone O3, le dioxyde de soufre SO2, le dioxyde d’azote NO2 et le monoxyde de carbon CO.
Les données ont été extraites de l'API d’Openaq qui fournit des donnés en temps réel et des historiques également. Ces données sont issues de leurs emplacements de surveillance qui forment un réseau de capteurs gérés par la même source.
Tout ce que cette API propose est libre au sens des licences ouvertes puisque leur mission est de lutter contre les inégalités de l'air. Pour celà, ils exposent les données sur la qualité de l'air afin de connecter une communauté mondiale diversifiée d'individus et d'organisations.

  Variation du taux de pollution par secteur dans différents pays : Les secteurs retenus sont les plus pertinents et ceux qu'on associe généralement à la pollution de l'air dans des débats fréquents à propos du sujet, à savoir énergie, processus industriels, déchêts, transport et quelques autres de plus.
Les données ont été extraites de CLIMATEWATCH qui est conçue de base pour donner aux chercheurs et intéressés du domaine les données climatiques et les ressources dont ils ont besoin pour suivre la pollution de l'air et le changement climatique.
On tient à mentionner que CLIMATEWATCH fournit des données libres de contraintes et restrictions d'utilisation.
La libraire pandas a été utilisée dans ce jeu de données afin de manipuler le fichier csv contenant les données des émissions de gaz polluants par secteur et modifier sa structure afin de pouvoir obtenir le graphe désiré. En effet, le fichier de départ avait une colonne dédiée à chaque année et une colonne nommée 'Sector' qui contient les secteurs, avec pandas nous avons construit une colonne 'Year' qui contient l'année et des colonnes dédiées à chaque secteur. Ainsi maintenant sur chaque ligne, nous avons l'année, le pays et les émissions de gaz correspondantes pour chaque secteur.

   Part de production des énergies renouvelables de chaque pays : Les énergies renouvelables représentent un pillier intéressant assez souvent colléré à la pollution de l'air et au changement climatique.
Le jeu de données est téléchargé à partir de Our World in Data qui s'intéresse à la recherche et aux données pour progresser contre les plus grands problèmes du monde et offre des données libres d'accès.
A première vue, on constate que la majorité des pays représentés ont toujours un long trajet à parcourir pour arriver à un stade de production d’électricité qui dépend en sa totalité sur les énergies renouvelables. Non seulement ça, mais la conclusion la plus importante qu’on peut tirer de cette visualisation c’est que les pays les plus développées ont un retard par rapport aux pays du tiers monde pour adopter cette démarche, cela est dû principalement à la contribution de l’énergie nucléaire dans cette dernière, mais ça n’a pas empêché des pays comme le brésil et Canada (plus des deux tiers de leurs énergies sont issues des sources renouvelables) malgré le fait qu’il ont des centrales nucléaires qui contribuent majoritairement à la production de l’électricité dans ses pays-là.

   Effet de la pollution de l'air sur le taux de mortalité : Le jeu de données considéré vise à visualiser l'impact de la pollution de l'air sur le taux de mortalité dans chaque pays du monde.
Les données ont été extraites de de Our World in Data qui propose des jeux de données libres d'accès comme mentionné précédemment.
Le dataset utilisé permet de récupérer le nombre de décés par tranche d'âge; un script python a été mis en place afin de nettoyer les données et séléctionner les parties requises. Pour faciliter le choix des pays, une barre de recherche avec autocomplétion a été établie. L'interaction proposée à l'utilisateur ne l'implique pas uniquement par le choix du pays mais également par la séléction ou désélection d'une ou plusieurs tranches d'âges.

Idée de l'architecture et des technologies

Le langage Python fournit de nombreux outils permettant le traitement et l'analyse des données. Ainsi, le choix de ce langage afin de manipuler les datasets récupérés était assez intuitif. Une multitude de librairies écrites pour le langage Python offrent également une grande flexibilté et facilitent l'accès à des quantités énormes de données. En effet, Pandas est une bibliothèque qui propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles très avantageuses.
Une application web dédiée à la visualisation des données requiert l'instauration d'effects graphiques et dynamiques conviviaux. Par conséquent, le langage Javascript doté de diverses librairies particulièrement utiles était indispensable. Nous avons utilisé la bibliothèque D3.js et Plotly js tout au long de la réalisation de notre projet POLLU-AWARE.

Cette figure récapitule l'ensemble des étapes et outils utilisés :

Conclusion

Il apparaît opportun de conclure ce rapport par des remerciements à nos professeurs Sylvain Bouveret et Renaud Blanch qui nous ont donné l’opportunité de réaliser ce projet. Nous étions amenés à manipuler des datasets et à utiliser les technologies web et les techniques de visualisation pour créer des représentations graphiques et interactives.

Certes, ce projet nous a permis de traiter un sujet important qui relève du développement durable, mais il fallait également en assurer l'accessibilité. C'est la raison pour laquelle nous avons prévu d'utiliser des palettes de couleur Colorblind Friendly.

Nous sommes ravis d'avoir réussi à obtenir le score suivant comme résultat de l'analyse de notre page web à l'aide du calculateur d'impact GreenIT Analysis qui sensibilise à prendre conscience de l’impact environnemental des services numériques.