Challenge Open Data

Chargement des données...

Pathologies >

Pesticides >

Départements

Prévalence des pathologies en France métropolitaine

Quantité de pesticide en France métropolitaine

Corrélation entre la prévalence des pathologies et la quantité de pesticide

Évolution de la prévalence des pathologies et de la quantité de pesticide en fonction du temps

Pesticide

Année :

Décalage :

Tranche d'âges

Sexe

Page de documentation

Membres de l'équipe

Ghorbel Hany - Lening Talaupa Zidane Steve - Sereslis Anne - Stierlin Jean - Wyckaert Sebastien

Objectif

Nous avons décidé de nous intéresser à l'évolution du nombre de pathologies en France au cours de ces dernières années et à la potentielle corrélation avec l'utilisation de pesticides. Nous avons choisi de travailler sur ce thème car, en plus d'être très intéressant, il aborde à la fois des enjeux environnementaux (pesticides) et sociétaux (pathologies).
De plus, notre site a été implémenté pour être "responsive" et ainsi s'adapter à la taille de la fenêtre.

Source des données

Premier set : Données pathologies
Le premier set de données provient de l'Assurance Maladie. Il répertorie toutes les pathologies observées en France entre 2015 et 2022.
On dispose du nombre de cas à l'année par pathologie. Pour chaque cas, on a la répartition par tranche d'âge, sexes et départements.
De plus, ce set contient également la taille de la population par catégorie (pour calculer le pourcentage de la population atteint d'une pathologie).
Lien des données (licence ouverte) : Pathologies - Data.gouv.fr

Deuxième set : Données pesticides
Notre deuxième set concerne l’achat de pesticides en France de 2015 à 2022.
Il contient la substance achetée (molécule), sa quantité et le département de l’acheteur. De plus, ce set présente également la classification des pesticides en fonction de leurs types et dangerosité (‘T,T+,CMR’, ‘N minérale’, ‘N organique’...).
Nous avons fait le choix de nous intéresser uniquement aux pesticides classifiés T,T+,CMR. Ce sont les pesticides les plus nocifs, classés toxiques. Ils sont reconnus comme cancérigènes, mutagènes…
Le set ne contient pas les pesticides achetés à l’étranger et utilisés en France.
Les données ne reflètent donc pas totalement la quantité de pesticides réellement utilisée par département et par année.
A noter que les unités pour les quantités de pesticides ne sont pas indiqués. On sait uniquement que ce sont des kg ou des L.
Lien des données (licence ouverte) : Pesticides - Data.gouv.fr

Sélecteurs

Pathologies : Choix pathologies
Filtre le set pathologies

Pathologies triées par catégories. Par défaut, toutes les maladies sont sélectionnées.
Départements : Choix départements
Filtre les deux sets

Menu déroulant avec le choix des départements. Par défaut, tous les départements sont sélectionnés.
Pesticides : Choix pesticides
Filtre le set pesticides

Menu déroulant avec la liste des pesticides. Par défaut, le champ "total" est sélectionné (tous les pesticides combinés).
Années : Choix années
Curseur permettant de sélectionner l'année. Par défaut, l'année 2022 est sélectionnée.
Décalage : Introduire un décalage entre année pathologies et pesticides
Décalage de l'année pesticide

Ce sélecteur permet de prendre en compte le fait que la pollution n'a pas un impact immédiat sur les maladies. Par exemple, si année actuelle= n et décalage=2 : année pathologies = n et année pesticides = n-2.
Tranches d'âges : Choix tranches d'âges
Filtre le set pathologies

On peut définir la tranche d'âge en étirant sur les extrémités du curseur gris
Sexe : Choix sexe
Filtre le set pathologies

Homme ou Femme

Visualisations choisies

Cartes de France : Réprésentation géographique

➜ Carte gauche : Prévalence pathologies (Nombre personnes malades/Taille population exprimé en ‰)

➜ Carte droite : Quantité de pesticides (kg ou L)

Nous proposons une première visualisation des données sous forme de deux cartes interactives de la France affichées côte à côte.

Ces cartes représentent respectivement les données liées aux pathologies et celles concernant les quantités de pesticides achetées par département.

Les données affichées par les cartes dépendent de tous les sélecteurs.

Les cartes disposent également d'interactions :
- survol d'un département avec la souris : met en évidence un département par un zoom léger et affiche une infobulle contenant le nom du département ainsi que les données associées (prévalence maladie et quantité pesticides pour le département)
- clic sur un département : permet de sélectionner ou déselectionner le département. Les cartes et graphiques sont ainsi ajustés.
Code couleur département :
- gris : département non sélectionné
- blanc : valeur minimale
- rouge foncé : valeur maximale
Nous avons choisi d'illustrer nos données par des cartes. En effet, cette représentation permet de visualiser les variations géographiques et les tendances territoriales.

A NOTER : Les cartes s’appuient sur un fichier GeoJSON open source sous licence ouverte, provenant du dépôt GitHub france-geojson.
Le git appartient à Gregoire David. Ce fichier fournit une représentation géographique précise des départements français au format GeoJSON.

Nuage de points : sélecteur : menu déroulant
- Par départements : Corrélation entre la prévalence des pathologies et la quantité de pesticide par départements
  ➜ Axe des abscisses : quantité pesticide (kg ou L)
  
  ➜ Axe des ordonnées : prévalence pathologies par départements (nombre personnes malades sur population totale ‰)
  
  Chaque point du graphique représente un département.
  
  La taille du point est proportionnelle à la population du département en question, afin de donner moins d'importance visuelle aux départements faiblement peuplés, pour lesquels quelques malades pourraient faire beaucoup augmenter la prévalence sans pour autant que ce soit pertinent.
  
  Le passage de la souris sur un point permet d'indiquer la prévalence et la quantité de pesticides achetée pour ce département.
  
  Ce graphique dépend des sélecteurs de la pathologie, de l'année, décalage, pesticide, âge et sexe.
- Par années : Corrélation entre la prévalence des pathologies et la quantité de pesticide par années

Courbes d'évolution temporelle : Évolution de la prévalence des pathologies et de la quantité de pesticide en fonction du temps

Courbe bleue (triangles): pesticides

Courbe rouge (ronds): pathologies

➜ Axe des abscisses : années

➜ Axe des ordonnées droite : quantité pesticide achetée

➜ Axe des ordonnées gauche : prévalence pathologies dans la population (‰)

Le graphique illustre l'évolution du nombre de pathologies et de la quantité de pesticides achetée en fonction du temps.

Il permet de montrer une potentielle corrélation entre ces deux évolutions.

Le graphique dépend de tous les selecteurs sauf du sélecteur année.

Dans le carde où un décalage est défini (sélecteur décalage non égal à 0), la courbe représentant l'évolution de la quantité de pesticides est alors décalée vers la droite.

Analyse des données

Avec nos graphiques nous avons pu faire quelques observations :

Les cartes de france permettent d'étudier la répartition géographique de nos données. Par exemple pour les pesticides, les départements du Nord de la france ont en général les plus grosses valeurs, alors que dans le centre de la France, il y a très peu de pesticides achetés. Cela s'explique probablement par des facteurs comme le nombre d'exploitations agricoles, ou le type de culture pratiqué, mais nous n'avons ni les données ni les compétences pour analyser cela.
La corrélation entre la prévalence des pathologies et la quantité de pesticides achetée par département est inexistante, quelque soient les selecteurs choisis. Cela se voit bien sur le nuage de point qui ne présente aucune tendance, ce qui est d'ailleurs confirmé par le calcul du R² qui est toujours presque nul.
Les courbes d'évolution temporelle des pathologies et des pesticides sont elles assez interessantes. Par exemple si on considère les cancers, on observe que les deux courbes ont globalement la même tendance, seulement décalées de 2 ans. En utilisant le sélecteur de décalage, les courbes se superposent relativement bien. À ce moment, on peut regarder le nuage de points cette fois ci groupé par années, et on obtient des données qui sont relativement alignées, avec une R² de 0.7. La corrélation est encore meilleure si on considère les "autres affections cardiovasculaires" pour les hommes de plus de 50 ans, qui donne une R² de 0.93.
Nos sélecteurs nous permettent de trouver ces corrélations, mais cela ne veut pas dire qu'il y a une réelle causalité. En effet, on obtient des bonnes corrélations sur quelques exemples particuliers, mais dans d'autres cas il n'y a aucune corrélation, voire une corrélation négative. Il faut donc faire attention avant de conclure.

Choix des technologies

Les données brutes ont été traitées à l'aide de scripts Python pour ne conserver que les informations pertinentes à notre analyse. Ce processus a permis de réduire la taille du jeu de données initial afin de respecter la limite imposée pour le rendu de ce projet. Les données traitées sont initialement dans des fichiers CSV. Cependant, ces fichiers ne peuvent pas être directement chargés en JavaScript à cause de la politique de sécurité du navigateur, et leur utilisation nécessiterait un serveur, ce qui serait contraire aux spécifications du projet. Nous avons donc écrit un script permettant de générer automatiquement un seul fichier JavaScript reprenant les mêmes données que celles des fichiers CSV, mais sous forme d'un objet JavaScript. On peut ainsi charger un seul fichier JavaScript et avoir à disposition la totalité des données. L'essentiel de l'application a été développé en HTML5, CSS3 et JavaScript, et nous avons utilisé la bibliothèque JavaScript D3.js pour la visualisation des données.

Traitements opérés sur les données

Pour analyser nos sets de données, nous avons effectué au préalable des traitements sur les fichiers csv recueillis. Dans le dossier data, vous trouverez les scripts python qui automatisent les processus de traitement/tri/nettoyage.

Pour chaque set, nous avons supprimé les colonnes redondantes ou inutiles à notre étude (région acheteur, nom du département acheteur…)

Puis, pour diminuer au minimum la taille du set, des choix ont été faits.

Premier set : Pathologies

Pour le premier set, nous avons choisi de supprimer les pathologies et traitements n’ayant pas un lien direct avec la pollution. Par exemple : Covid-2019, traitements antalgiques, suivi maternité, infections au VIH…

Afin de compresser les données, nous avons associé à chaque trio de pathologies un code spécifique. La correspondance code ->trio est dans le fichier data/patho_code.csv. Cela nous permet de ne pas avoir plusieurs fois la même valeur recopiée dans le fichier final de pathologies. À la place, nous avons un code qui référence le trio de pathologies. La même méthode a été appliquée pour les classes d'âge (correspondance fichier data/age_code.csv).

De plus, nous avons supprimé les colonnes inutiles à notre étude. Nous avons également supprimé les lignes représentant la somme de catégories (retrouvables en sommant les autres lignes).

Deuxième set : Pesticides

Dans le cas des pesticides, les données n’étaient pas dans un unique fichier csv. Il y avait un fichier csv par année et région. Nous avons donc fusionné et traité ces données pour obtenir un unique fichier csv : data/pesticides_final.csv.

Comme indiqué précédemment, uniquement les pesticides de catégories très toxiques ont été recueillis du site. Cependant, les catégories de pesticides ont changé entre 2018 et 2019. Beaucoup moins de pesticides sont classifiés en T,T+,CMR à partir de 2019. De plus, nous avons noté que certains pesticides classifiés T,T+,CMR ne le sont plus à partir de 2019. Mais, ils sont toujours utilisés en quantité importante. Nous avons donc dû harmoniser les données. Grâce aux données de 2015-2018, on a donc décidé de garder les pesticides T,T+,CMR utilisés à partir de 2019 même si ils ne sont plus classifiés comme tels.

Puis, de la même manière que le set pathologies, nous avons créé une table de correspondance (code-> pesticide) pour réduire la taille de nos données: fichier substance_code.csv

Etant donné que nous nous intéressons à la quantité de pesticides par département et par année, nous prenons en considération seulement les pesticides dont la quantité achetée par département et par année est supérieure à 1kg.

Enfin, nous avons ajouté une ligne “total” (code_subt=999) dans le fichier csv. Cette ligne réalise la somme par année et par département de tous les pesticides achetés. Même si cette somme n’a pas forcément de sens (on additionne des kg avec des L, et les produits sont différents), elle permet tout de même d’avoir une vue d’ensemble sur la quantité de pesticides achetée.

Architecture de l'application

Notre application est structurée de la manière suivante :

Un répertoire site/ contenant les fichiers HTML, CSS et JavaScript qui sont le coeur de l'application. Il est constitué de :
- Un fichier index.html qui est le point d'entrée de notre application.
- Un fichier styles.css qui contient la mise en forme de notre application.
- Un fichier data.js qui contient toutes les données traitées dans une variable JavaScript nommée DATA et accessible partout dans l'application.
- Un sous-répertoire js/ qui contient :
  - Un sous-répertoire plots/ qui contient les graphiques sous forme de fichiers JavaScript.
  - Un sous-répertoire selectors/ qui contient l'ensemble des selecteurs utilisés dans notre application. Lorsque la valeur d'un sélecteur est modifiée, les graphiques sont recalculés puis affichés de façon automatique grâce à une méthode update qui est appelée à chaque changement d'état dans l'application.
  - Trois fichiers JavaScript main.js, state.js et tooltip.js qui définissent des fonctions communes pour tous les graphiques et selecteurs.
Un répertoire data/ qui contient les données traitées dans des fichiers .csv et l'ensemble des scripts Python utilisés pour le traitement de données.

Pour accéder à notre application, on accède à la page site/index.html. Les graphiques sont automatiquement générés en utilisant la bibliothèque D3.js et ce grâce aux données qui se trouvent dans le fichier site/data.js. Lors de l'initialisation des graphiques, ceux-ci souscrivent à un observer en renseignant une méthode qui sera appelée à chaque changement d'etat (de l'objet state). Ainsi, lorsqu'on modifie la valeur d'un sélecteur, la méthode update de chaque graphique est appelée, ce qui recalcule et réaffiche automatiquement les graphiques.

Les données sont préfiltrées par pathologies, département, classe d'age et sexe une unique fois dans l'objet state, de cette manière, les calculs ne sont pas répétés par chaque graphique et la page est plus rapide. De plus, le state garde les états intermédiaires (par exemple filtré uniquement par pathologies), et on peut donc économiser ce calcul si on change autre chose que les pathologies. L'ordre d'application des sélécteurs a été pensé pour filtrer en premier les sélécteurs les moins utilisés, et ainsi limiter au mieux le temps de calcul dans le cadre d'une utilisation classique.

Analyse GreenIT

Nous avons utilisé GreenIT-Analysis (V3.1.4) qui est une extension du navigateur Firefox permettant d'évaluer l'impact environnemental d'un parcours utilisateur complet sur une application web. Nous avons réalisé cette analyse sur un navigateur Firefox Version 132.0.2 (64 bits) tournant sur un Système d'Exploitation Ubuntu 22.04. Nous avons analysé l´impact de notre application avant et après avoir vidé le cache du navigateur et le resultat est le même. Voici un apperçu des résultats obtenus grâce à cette extension :

Nous avons donc obtenu un EcoIndex de 70.19/100, ce qui est assez bien. Nous avons aussi évalué l´utilisation des bonnes pratiques dans notre applcation et il en resulte que nous avons respecté quasiment toutes les bonnes pratiques sauf le print css, mais ce n´est pas très grave étant donné que notre application n´est pas destinée à être imprimée. Voici un apperçu du résultat obtenu en termes de bonnes pratiques respectées par notre application :

Potentielles améliorations

Taille sets
Pour avoir des résultats plus fiables, des sets de données remontant aux années 2000 auraient été plus pertinents, surtout pour les données de pesticides.
Données pesticides
De plus, les données sur les pesticides concernent uniquement ceux achetés en France. Notre analyse n'illustre donc pas exactement la quantité de pesticides utilisée par département. Cela peut donc fausser nos résultats.
Impact COVID-19
Grâce à nos visualisations, on a pu observer un impact important de la crise du COVID-19 sur nos données. Que cela soit au niveau des données de pathologies ou de pesticides, on remarque une baisse importante de la prévalence des pathologies (hors COVID) et de la quantité de pesticides utilisée. Cet évènement inédit a une influence non négligeable sur nos visualisations.
Impact pesticides uniquement sur la population locale
Dans notre étude, on ne trace pas les produits agricoles issus du pesticide mais l'usage du pesticide dans un département. Cela peut avoir des limites dans l'étude de la corrélation entre les maladies et l'usage de pesticides. En effet, ici on regarde l'impact des pesticides sur la population locale plutôt que l'impact de la consommation de produits agricoles cultivés avec des pesticides.

Challenge Open Data

Challenge Open Data

Chargement des données...

Pathologies >

Pesticides >

Départements

Prévalence des pathologies en France métropolitaine

Quantité de pesticide en France métropolitaine

Corrélation entre la prévalence des pathologies et la quantité de pesticide Par département Par année

Évolution de la prévalence des pathologies et de la quantité de pesticide en fonction du temps

Page de documentation

Membres de l'équipe

Objectif

Source des données

Sélecteurs

Visualisations choisies

Analyse des données

Choix des technologies

Traitements opérés sur les données

Architecture de l'application

Analyse GreenIT

Potentielles améliorations

Corrélation entre la prévalence des pathologies et la quantité de pesticide