B. LA DOUANE : DES DONNÉES ET DES IDÉES
La douane, à l'instar de la DGFiP, est une administration qui dispose d'immenses quantités de données restées longtemps cloisonnées et peu valorisées, mais qui utilise de plus en plus le datamining.
Une étape importante a été franchie avec le lancement du programme « Valorisation des données », créé en 2019 et aujourd'hui rattaché à la délégation à la stratégie. Ce programme repose sur la mise en place d'un lac de données (datalake), infrastructure de déversement, de croisement et d'exploitation de l'ensemble des données issues des quelque 200 applicatifs métier de la DGDDI. À ce jour, ce programme a déjà donné naissance à une trentaine de nouveaux outils, pour la plupart encore en développement, destinés à faciliter le travail des agents dans des domaines variés.
Quelques applications issues du programme « Valorisation des données »
« Vision 360 des opérateurs économiques »
Outil de visualisation sur une carte des flux d'un opérateur (importations, exportations), par pays et par région, utilisé par les services chargés d'accompagner les entreprises à l'international.
« Minoration de valeur »
Outil de ciblage du SARC, en complément des méthodes classiques (ratio poids/valeur déclarée atypique, etc.).
« Résolution d'identité »
Cet outil permet d'identifier un même expéditeur ou destinataire dans le cas - fréquent - où il aurait « brouillé les pistes » en changeant par exemple quelques lettres de son nom.
Le datamining permet notamment un meilleur ciblage des flux de marchandises illicites : 25 % des prescriptions de contrôle du SARC (service d'analyse de risque et de ciblage) en matière de dédouanement, par exemple, doivent être issues du datamining (objectif 2023), selon une logique identique à celle de la DGFiP.
Lorsqu'un cas d'usage potentiel est identifié, les équipes du programme « Valorisation des données » peuvent faire appel aux 6 data scientists du pôle « Science des données » pour développer un outil - y compris en matière de machine learning, voire de deep learning (cf. infra : projet « 100 % scanning »).
Comme à la DGFiP, cependant, la grande majorité des outils et des croisements de données ne relèvent pas de l'IA mais de techniques classiques, et ceux qui utilisent l'apprentissage automatique sont rares et relativement simples. C'est le cas, par exemple, du projet « Résolution d'identité », qui permet d'identifier un même expéditeur ou destinataire qui aurait modifié quelques lettres de son nom. Là encore, l'administration fait au mieux, et 6 data scientists, c'est insuffisant.