IA, impôts, prestations sociales et lutte contre la fraude

Rapports d'information

Rapport d'information n° 491 (2023-2024), déposé le 2 avril 2024

II. L'IA SUPERFICIELLE

Au-delà de ces cas d'usage généralistes, quelques expérimentations de l'IA générative avec une dimension « métier » spécifique ont été lancées, mais leur impact est limité :

- Llamandement apporte la preuve du potentiel de l'IA générative, mais le cas d'usage est sans impact majeur à l'échelle de l'administration ;

- les divers chatbots améliorent le service rendu ou facilitent le travail des agents, mais à la marge, car ils se bornent à ajouter une couche superficielle d'IA générative à des tâches existantes, sans rien transformer en profondeur.

A. LLAMANDEMENT (D'APPEL) : AVIS FAVORABLE DES RAPPORTEURS

L'exemple le plus encourageant est celui du projet Llamandement de la DGFiP, qui à défaut d'avoir un impact structurel à l'échelle de cette administration, a le mérite de prouver, de façon incontestable, l'intérêt de l'IA générative pour automatiser le traitement d'informations textuelles complexes.

Porté par la direction de la transformation numérique (DTNum) de la DGFiP, le projet vise à automatiser une partie du traitement des amendements parlementaires lors de l'examen du projet de loi de finances (PLF) en séance publique à l'Assemblée nationale et au Sénat.

Les services de Bercy chargés de préparer les « fiches de banc » des ministres doivent en effet traiter une grande quantité d'informations dans un temps très réduit - généralement quelques heures. Le traitement, qui se fait manuellement, est à la fois chronophage et source d'erreurs - mais sans alternative évidente jusqu'à récemment. Pour rappel, 5 400 amendements ont été déposés à l'Assemblée nationale sur le PLF 2024 en première lecture, et 3 700 au Sénat.

Un processus sous-optimal en 4 étapes

1. Attribution au bureau compétent : après récupération de la « liasse » (automatisée à 40 % pour l'AN et 0 % pour le Sénat), lecture des amendements un par un, puis recherche manuelle du bureau compétent (DLF* ou autre) dans un tableau Excel des attributions. Étape chronophage et source d'erreurs ;

2. Recherche des amendements similaires (PLF actuel/passés) : étape indispensable à la cohérence des positions, mais fastidieuse, partielle, dépendante de l'ancienneté et source d'erreurs (surtout en cas de variantes et de rectifications de dernière minute) ;

3. Synthèse de l'amendement : souvent partielle faute de temps, les efforts se concentrant sur les amendements « à risque » (comprendre : « risquant d'être adoptés ») ;

4. Rédaction de la position du Gouvernement (avis et argumentaire détaillé) : étape la plus sensible, soumise aux mêmes limites.

* DLF : direction de la législation fiscale. Les amendements peuvent aussi relever de la direction du budget (DB), de la direction générale du Trésor, de la direction générale des entreprises (DGE), etc.

L'outil conçu par la DTNum, testé lors de l'examen du PLF 2024, a permis d'automatiser presque entièrement les trois premières étapes (attribution, recherche de similaires, résumé neutre), avec un travail de qualité équivalente à celui d'un humain - spécialiste - et surtout réalisé en une fraction du temps habituellement nécessaire.

À noter que seule la troisième étape (la synthèse) fait appel à l'IA générative, en l'occurrence Llama 2, un grand modèle de langage (LLM) open source développé par Meta, aux performances comparables au modèle GPT-3.5 d'OpenAI. Une dizaine de minutes suffit à résumer l'ensemble des amendements. L'attribution et la recherche de similarités s'appuient sur des méthodes bien plus simples et disponibles depuis plusieurs décennies (par exemple l'appariement approximatif, ou fuzzy matching), mais néanmoins suffisantes pour faire gagner énormément de temps.

Source : DTNum

Si les LLM ont d'excellentes capacités de traitement du langage naturel, ils n'ont pour ainsi dire qu'une « culture générale », certes vaste, mais pas spécialisée et principalement issue de données en anglais. Le travail de l'équipe du projet Llamandement a donc consisté à « réentraîner » le modèle de base sur des données spécifiques à la tâche demandée, en l'occurrence les amendements du PLF 2023 et les « fiches de banc » correspondantes, afin de lui permettre d'en saisir les subtilités et le vocabulaire technique (droit fiscal, procédure législative, etc.).

Cette pratique, appelée fine-tuning, est couramment utilisée : c'est elle qui permet, par exemple, de spécialiser des LLM dans des domaines comme la médecine (Med-PaLM) ou la finance (BloombergGPT). Llamandement est donc un outil « métier » spécifique, et non un outil « sur étagère ».

Certes, à l'échelle de la DGFiP et de ses quelque 100 000 agents, l'impact de l'outil est limité : il concerne tout au plus quelques dizaines de personnes à la DLF, et encore de façon très ponctuelle (une ou deux fois par an). Il leur apporte néanmoins une aide précieuse à un moment critique de leur travail - qui est aussi un moment critique de la démocratie parlementaire.

En outre, l'expérimentation porte sur un cas d'usage superficiel de l'IA générative, au sens où elle ne concerne pas le « coeur de métier » de l'administration fiscale : l'outil n'est pas intégré aux « grands » systèmes d'information de la DGFiP (gestion de l'impôt, du recouvrement, etc.) et n'exploite aucune donnée individuelle (les amendements sont publics, et les « fiches de banc » et autres documents internes se trouvent dans des systèmes ad hoc). Ce n'est pas son objet, et ce champ restreint est évidemment pertinent pour une expérimentation destinée à apporter la « preuve du concept ».

C'est bien là qu'est son intérêt principal : démontrer que l'IA générative permet d'automatiser le traitement d'informations textuelles complexes. En particulier, le résumé automatique démontre sa capacité à répondre à deux exigences majeures :

- la neutralité de la synthèse : les LLM sont capables de discerner ce qui relève du contenu factuel d'une part (ici la dimension juridique), et de l'appréciation subjective d'autre part (jugement de valeur, biais idéologique, émotion, effet rhétorique, etc.), y compris en cas de nuance subtile ou de sens implicite ;

- la fiabilité de la synthèse : si le risque d'« hallucination » est inhérent à l'IA générative (cf. infra), il peut être réduit par un entraînement et un paramétrage adaptés, et n'est généralement pas un problème pour les tâches de synthèse, comme l'expérimentation l'a confirmé.

À l'avenir, le système pourrait être étendu à l'examen d'autres textes, au-delà du seul champ des finances publiques. Les tests effectués sur d'autres projets de loi (programmation militaire, industrie verte, etc.) se sont d'ailleurs révélés concluants. Le projet a fondamentalement une vocation interministérielle : s'il relève de la DGFiP, c'est parce qu'elle en a eu l'initiative - et c'est à elle qu'en revient le mérite.

C'est le dernier grand enseignement à en tirer : l'IA générative est une technologie qui se prête particulièrement bien à une démarche fondée sur l'expérimentation, l'initiative et l'agilité, car de nombreux outils peuvent être conçus et déployés « simplement », ou du moins sans intervention « lourde » sur les couches logicielles fondamentales. La preuve : pour l'essentiel, Llamandement a été développé par deux personnes, en moins de six mois, et l'idée vient tout simplement... d'un stage en immersion à la DLF, c'est-à-dire du terrain.

Une limite, et quelques pistes pour la suite

Un « gros » modèle plus récent (GPT-4, Claude 3, etc.) sans fine-tuning fait mieux, sinon beaucoup mieux, qu'un « petit » modèle plus ancien avec fine-tuning comme Llama 2. En d'autres termes, pour résumer un amendement, il est plus simple de demander directement à... ChatGPT, y compris dans des domaines techniques comme la fiscalité ou le droit parlementaire. De même, le modèle généraliste GPT-4 (ChatGPT) fait aujourd'hui mieux en analyse financière que le modèle spécialisé BloombergGPT, et la performance des modèles généralistes devrait continuer à s'accroître rapidement.

Dès lors, et au-delà de sa valeur comme « preuve du concept », l'intérêt d'un outil comme Llamandement vaut surtout pour les fonctionnalités additionnelles et spécifiques qu'il pourrait proposer, et qui d'ailleurs n'impliquent pas forcément de l'IA générative. Parmi les pistes envisageables à l'avenir, on peut notamment citer :

- rédaction de l'avis du Gouvernement et pas seulement du résumé : l'avis est le plus souvent prévisible (amendement similaire déjà commenté, irrecevable, manifestement contraire à la position du Gouvernement, trop coûteux, etc.), le gain de temps est notable, et ce n'est qu'une simple suggestion qui ne lie ni les services, ni le ministre ;

- recherche des similarités sur le fond, au-delà des correspondances strictes ;

- vérification la cohérence entre le dispositif et l'objet de l'amendement ;

- assistance à la légistique ;

- outils d'aide au chiffrage, à l'évaluation préalable ou au suivi de l'application des lois.

Si le traitement des amendements n'est pas un enjeu structurel pour la DGFiP, il l'est, en revanche, pour le Parlement.

Des réflexions ont lieu sur le sujet, notamment dans le cadre de la mission sur l'évolution du travail parlementaire confiée par le Président du Sénat à Sylvie Vermeillet, Vice-présidente.

À long terme, les progrès de l'IA pourraient poser des questions inédites. Qu'est-ce que le droit d'initiative parlementaire, quand un amendement peut être déposé mille fois, sans jamais être tout à fait le même ? Que vaut la parole d'un ministre, quand une IA peut, en temps réel, repérer une contradiction avec un propos tenu ailleurs ou plusieurs années avant ? Peut-on chiffrer le coût d'un amendement avec un chatbot ? Une « hallucination » est-elle irrecevable ?

En 2015, un sénateur italien a déposé 83 millions d'amendements au projet de réforme constitutionnelle de Matteo Renzi, en modifiant tantôt un chiffre, tantôt un signe de ponctuation, etc. Soit 412 tonnes de papier.

Les thèmes associés à ce dossier

Partager cette page