15 mars 2021

Normalisation d'adresses et Géolocalisation supervisée

#R #QGIS #FANTOIR #BAN #Contours IRIS

Je vous présente aujourd’hui une solution développée pour un client dans le cadre de sa mission d’observation.

Contexte

Mon client récolte de la donnée auprès de 130 fournisseurs différents possédant chacun leur propre logiciel de gestion et leur propre mode de saisie.

Les individus statistiques considérés sont des logements dont la dimension spatiale se limite à une adresse et un nom de commune d’une qualité textuelle très hétérogène.

Problématique

Pour mener des observations à des échelles agrégées (quartiers, zones de marché), mon client passait jusqu’alors par des géocodeurs automatiques (IGN, Etalab, C&D) sans jamais être pleinement satisfait.

Diagnostic : pour des logements situés précisément à la même adresse, la base renseignait des codes postaux, arrondissements, IRIS différents. Il arrivait même que des points adresses se retrouvent dans d’autres communes du département.

Mission

Normaliser l’ensemble des 47 613 adresses de la base de données, les enrichir à minima de leurs codes IRIS (quartiers), codes INSEE (arrondissements, communes).

Temps estimé : 4 semaines

  • 3 semaines pour la création des algorithmes de nettoyage et d’enrichissement de l’adresse
  • 1 semaine de vérifications et de rectifications manuelles

Délais client : 2 semaines

  • 2 semaines de journées très allongées
  • 2 week-end
  • 2 nuits blanches

Outils

  • R pour la programmation des algorithmes
  • QGIS pour les jointures spatiales
  • Fichier national FANTOIR pour le formatage et la normalisation des adresses
  • Adresses et lieux-dits issus de la BAN et contours Iris coédités par l’INSEE et l’IGN pour la géolocalisation

Résultats

99.26% des adresses de la base harmonisées et géolocalisées* :

  • 38 123 logements localisés au point adresse (coordonnées XY) par un premier algorithme
  • 8 497 à l’échelle de l’IRIS par un second algorithme
  • 640 géolocalisés manuellement.

*Les adresses restantes ne possédaient qu’une information trop partielle ou erronée pour pouvoir être géolocalisées avec fiabilité.(exemple : numéro de voie manquant pour une rue ou un boulevard qui traverse plusieurs IRIS).

Les + de la solution

Adaptative

Les algorithmes probabilistes d’attribution d’informations géographiques sont calibrés en fonction du besoin du client : les coordonnées XY n’étant pas nécessaires, le second algorithme développé a permis de récupérer les adresses les moins précises.

Supervisée

Lorsque les algorithmes n’ont pas été en mesure d’attribuer les bonnes informations géographiques, une enquête multi-sources (PV de conseils municipaux, google map, Sit@del détails,…) est menée pour en comprendre les causes.

Sources / Liens