ChatGPT, et après ? Bilan et perspectives de l'intelligence artificielle

Rapports d'office parlementaire

Rapport n° 170 (2024-2025), déposé le 28 novembre 2024

Les informations clés

Nature

Rapport de l'OPECST

Structure en charge

Office parlementaire d'évaluation des choix scientifiques et technologiques

RAPPORTEURS

ESSENTIEL

Voir l'essentiel (362 Koctets)

NOTICE DU DOCUMENT

Voir la notice

B. LA CRÉATION AU DÉFI DE L'IMPACT DE L'INTELLIGENCE ARTIFICIELLE SUR LA PROPRIÉTÉ INTELLECTUELLE ET LES DROITS D'AUTEUR

La diffusion de l'intelligence artificielle, surtout de l'IA générative, permet de rendre automatisables nos tâches intellectuelles, et certaines de nos compétences dans le domaine de la création sont directement concurrencées. Alors que l'on considérait auparavant la créativité artistique comme étant un talent propre à l'homme, elle est désormais devenue, dans une certaine mesure, accessible à l'intelligence artificielle. Cela est possible grâce à l'utilisation massive de données d'entraînement (images, oeuvres d'art, etc.) dont l'origine est souvent assez floue, la mobilisation d'oeuvres protégées étant fréquente. Cela soulève plusieurs questions sur l'évolution de nos sociétés en général et de notre droit en particulier pour s'adapter à ces changements.

Les régimes juridiques de propriété intellectuelle existants font face à des défis qu'ils n'ont jamais rencontrés auparavant. Ils sont incapables, d'une part, de permettre la rémunération ou l'indemnisation des titulaires de droit sur les oeuvres ayant servi de sources aux modèles d'IA, d'autre part, de déterminer, pour l'heure, les règles applicables aux oeuvres créées par intelligence artificielle, dont le statut reste incertain.

En outre, l'automatisation des processus de création artistique est susceptible de modifier en profondeur l'ensemble des industries culturelles, en permettant aux studios de créer des contenus rapidement et à moindre coût.

1. Des régimes de propriété intellectuelle fragilisés

L'intelligence artificielle a d'ores et déjà un impact sur les régimes de propriété intellectuelle, aussi bien sur le droit d'auteur français que sur le copyright anglo-saxon, qui bien que convergents sur la forme depuis la convention de Berne de 1886 restent différents. En effet, il n'existe toujours pas de droit d'auteur au niveau international.

Pour mémoire, le droit d'auteur français considère une oeuvre comme une extension de la personnalité de son créateur, conférant un droit de propriété incorporel fort, qui englobe des attributs d'ordre intellectuel, moral et patrimonial^287(*). Le droit moral est ainsi perpétuel, inaliénable et imprescriptible même si le droit patrimonial, d'une durée variable, a fait tomber l'oeuvre dans le domaine public.

En revanche, le copyright relève d'une logique strictement économique et accorde un droit moral restreint, qui se concentre principalement sur le support matériel de l'oeuvre et les intérêts financiers du titulaire du copyright (qui peut être l'auteur ou pas)^288(*). Des modalités de régime juridique différentes peuvent également exister d'un pays à un autre.

Entraîner un modèle d'intelligence artificielle nécessite de grandes quantités de données, collectées de manière automatique à travers de vastes jeux de données, qui contiennent donc parfois tout ou partie d'oeuvres soumises au copyright ou au droit d'auteur.

Sans transparence de la part des développeurs de modèles de fondation, il est difficile de savoir exactement quelles oeuvres sont présentes au sein des données d'entraînement du modèle. Il est donc difficile pour un ayant droit de faire valoir ses droits pour atteinte au copyright ou au droit d'auteur.

Cela est d'autant plus problématique que la directive 2019/790 du 17 avril 2019 de l'Union européenne^289(*) prévoit paradoxalement une possibilité pour les ayants droit de refuser (« opt-out ») que leurs oeuvres soient utilisées dans les bases de données d'IA. Un droit de retrait qui ne peut donc rester que formel. Alexandra Bensamoun, professeure de droit à l'Université Paris-Saclay et spécialiste du droit d'auteur et de l'intelligence artificielle, a affirmé lors de son audition devant la commission de la culture, de l'éducation et de la communication du Sénat^290(*) que l'on sait aujourd'hui que des modèles d'IA ont utilisé dans leurs données d'entraînement des données d'auteurs qui avaient pourtant d'ores et déjà fait valoir leur droit de retrait des bases de données.

L'absence de respect des règles relatives à la propriété intellectuelle est également reconnue par les représentants des grandes entreprises américaines de l'intelligence artificielle eux-mêmes. Ils ne se cachent pas de violer le droit d'auteur ou le copyright, dès lors que les oeuvres sont sur Internet. Ainsi, le directeur technique d'OpenAI, Mustafa Suleyman, a pu avouer : « Je pense qu'en ce qui concerne le contenu qui se trouve déjà sur le Web ouvert, le contrat social de ce contenu depuis les années 1990 est l'utilisation équitable. Tout le monde peut le copier, le recréer, le reproduire. C'est ce que l'on appelle le “freeware” si l'on veut, et c'est ce que l'on a compris »^291(*).

Cette question relevant principalement du sujet des données utilisées, la Commission nationale de l'informatique et des libertés (Cnil) est directement concernée par ces questions. Lors de son audition par vos rapporteurs, Bertrand Pailhès, directeur des technologies et de l'innovation à la Cnil et ancien coordinateur national pour l'intelligence artificielle, a rappelé que le règlement général pour la protection des données (RGPD)^292(*) doit s'appliquer à l'entraînement des modèles d'intelligence artificielle. Aussi, en théorie, la collecte de contenus ne peut se faire en provenance de sources manifestement illégales. La collecte de données doit en outre répondre à une finalité explicitement définie et s'appuyer sur une base légale, souvent l'intérêt légitime. La Cnil a constitué des « fiches pratiques » qui permettent d'assurer le respect de la protection des données lors de leur traitement par des systèmes d'IA, ce qui inclut donc, sans s'y limiter, la protection de la propriété intellectuelle.

Les législations françaises et européennes déterminent ainsi un cadre théorique assez clair pour le respect de la propriété intellectuelle et fixent des limites aux cas d'entraînement des modèles d'intelligence artificielle. Elles permettent de définir ce qui constitue des pratiques acceptables ou pas. Cela est d'autant plus important qu'il semble que beaucoup d'entreprises développant des solutions d'intelligence artificielle semblent tentées de contourner ces principes. Ces discours se retrouvent en effet souvent dans le secteur du numérique, y compris du côté de figures emblématiques de la French Tech, comme Oussama Ammar, cofondateur de l'incubateur The Family avec Alice Zagury et Nicolas Colin, qui a souvent fait de la transgression des règles le coeur de ses conseils aux start-up en vue d'une innovation disruptive^293(*).

Néanmoins, fixer des règles définissant ce cadre légal n'est pas en soi suffisant, il faut également s'assurer de disposer des moyens permettant de contraindre les entreprises de respecter ce cadre. Or, les sociétés font elles-mêmes valoir des principes de confidentialité qui contreviennent à cet objectif, ce qui pose un problème de transparence de l'information. Il est quasi impossible pour les autorités ou pour un juge d'obtenir des informations sur les bases de données d'entraînement utilisées sans y avoir directement accès^294(*) et il est donc très difficile de prouver, sur la seule base des résultats d'un modèle, que ce dernier contient dans sa base de données d'entraînement du contenu illicite. Et quand bien même le régulateur ou un juge aurait accès aux milliards de données utilisées, le tri pour identifier les oeuvres protégées resterait lui aussi très ardu.

Les entreprises développant des modèles de fondation considèrent, de plus, que les données collectées et leur traitement avant même l'entraînement (nettoyage/curation) constituent une source de valeur pour elles. Ouvrir ces données constituerait pour elles une perte d'avantages comparatifs vis-à-vis de leurs concurrents. C'est cette position qu'ont tenue les responsables de MistralAI lors de leur audition devant vos rapporteurs. Il y a donc un équilibre à trouver entre, d'une part, l'intérêt général et la préservation des intérêts des ayants droit, le régulateur ou les titulaires des droits devant pouvoir avoir accéder aux bases de données d'entraînement des modèles d'IA, et, d'autre part, les intérêts des entreprises développant les modèles d'IA pour qui ces données d'entraînement sont un élément de valeur en soi et une ressource indispensable pour l'entraînement des modèles.

2. Des risques contentieux

Dans ce contexte d'incertitudes, les risques contentieux sont de plus en plus grands, qu'il s'agisse de l'utilisation d'oeuvres protégées pour entraîner les modèles, de la protection des oeuvres générées par des systèmes d'IA ou, encore, de tout autre litige qui pourrait émerger. En l'absence de règles claires, il reviendra aux juges de trancher les litiges. Le rôle de la jurisprudence sera donc central et laisse les artistes, les entreprises et les utilisateurs dans un flou juridique anxiogène, avec des risques financiers qui ne sont pas négligeables.

C'est pourquoi une clarification de ces enjeux et des régimes juridiques applicables est indispensable. Le rapport d'information de la commission des lois de l'Assemblée nationale déposé en conclusion des travaux de sa mission d'information sur les défis de l'intelligence artificielle générative en matière de protection des données personnelles et d'utilisation du contenu généré fournit des pistes utiles à la réflexion^295(*). Vos rapporteurs y renvoient et souhaitent qu'un débat ait lieu à ce sujet.

3. Le modèle économique de la création artistique par l'IA

Par définition, le système de droit d'auteur se retrouve davantage fragilisé par l'apparition d'oeuvres générées par l'IA que le système de copyright. En effet, le premier rattache l'oeuvre à son auteur avant de poser la question du titulaire du droit patrimonial. Or, la définition de l'auteur dans le cas d'une oeuvre créée par un modèle d'IA est difficile. Qui est l'auteur d'une oeuvre générée par IA ? L'auteur est-il le développeur du modèle de fondation, le distributeur de l'application d'IA générative, l'utilisateur qui a formulé une instruction ou, de manière plus complexe, l'ensemble des auteurs qui ont vu leurs oeuvres être utilisées pour l'entraînement du modèle et parvenir à l'oeuvre finale ? Ces questions appellent à réfléchir à la notion même de droit d'auteur qui, s'il apparaît de moins en moins adapté, doit tout de même être sanctuarisé à l'heure de l'IA générative, fusse au prix d'importantes adaptations.

Vos rapporteurs ont rencontré des artistes créateurs d'oeuvres utilisant l'IA : le collectif d'artistes Obvious, représenté par Pierre Fautrel, ainsi que Christophe Labarde, organisateur de l'exposition « Irruption - Quand l'intelligence artificielle bouleverse la création » au Château de Turenne. Pour mémoire, le collectif Obvious est notamment à l'origine de l'oeuvre générée par IA « La famille de Belamy », vendue aux enchères pour un prix de 432 000 dollars, ce qui a constitué un record.

Ces deux experts ont admis qu'il était trop difficile de déterminer si une oeuvre réalisée par l'IA était inspirée d'une oeuvre déjà existante, sauf à tomber dans la pure et simple copie, la contrefaçon étant déjà un délit puni par la loi^296(*).

Une solution minimale pour réguler les créations par l'intelligence artificielle pourrait être l'application d'un filigrane sur les médias créés par des modèles d'intelligence artificielle (watermarking). Ainsi, il serait possible de distinguer les oeuvres générées par des modèles d'IA et celles d'origine humaine. Une telle solution se heurte néanmoins à des problèmes pratiques : il faudrait que le filigrane ne soit pas trop visible afin de ne pas dénaturer l'oeuvre ; la modification de l'oeuvre ne devrait plus être possible après l'application du filigrane pour ne pas altérer ce dernier ou le faire disparaître ; il faudrait que le filigrane puisse être détecté sur différents supports, numériques et physiques. Restera en outre la question de savoir comment appliquer de tels filigranes à différents types d'oeuvres : textes, images, sons, musiques, vidéos en tout genre générés par intelligence artificielle. Autant de défis qui feront l'identification concrète des oeuvres créées par des systèmes d'intelligence artificielle un sujet complexe et multidimensionnel, au moins à ce stade de l'état des connaissances et des techniques.

4. L'avenir de la création artistique

L'arrivée d'outils d'intelligence artificielle capables de générer du contenu artistique sur la base de données numériques, couplée à l'avènement du Big Data, sont des facteurs de transformation profonde de la création artistique et de l'ensemble des industries culturelles qui pourront créer du contenu plus rapidement, plus efficacement et à moindre coût grâce à l'IA générative, avec une offre plus personnalisée par l'analyse des données des utilisateurs.

Aux États-Unis, vos rapporteurs ont rencontré Matthieu Lorrain et Surya Tubach, représentants de Google Creativ, la filiale de Google en charge des industries culturelles, qui leur ont parlé des initiatives prises par le géant du numérique en matière de création artistique. Ils affirment que le futur consistera par exemple à produire des « contenus liquides » (liquid content), à savoir des contenus adaptables aux préférences des utilisateurs grâce à des intelligences artificielles capables d'analyser toutes les données produites par les utilisateurs.

Face à un tel modèle économique et technique, il pourrait devenir difficile aux productions traditionnelles de rivaliser avec ces types de contenu spécifiquement conçus pour répondre aux attentes de chaque utilisateur. Il s'agirait alors d'un pas supplémentaire vers la marchandisation des industries culturelles, notamment audiovisuelles, en faisant notamment disparaître la vision d'auteur des films et des séries. La perspective unique et très personnelle que peut apporter un réalisateur talentueux pourrait ne plus exister par exemple. Il ne s'agirait plus que de créer des contenus audiovisuels sur mesure, basés sur les « préférences » supposées des utilisateurs.

En plus de brider la créativité artistique, ce type de contenu conduirait paradoxalement à renforcer les bulles de filtres et mènerait à une plus grande uniformisation des films et des séries, limitées à une déclinaison de tropes narratifs populaires moyens ajustés à l'aide d'artefacts superficiels de personnalisation basés sur les préférences supposées du spectateur. Une telle évolution cloisonnerait encore davantage chacun dans un univers culturel aux perspectives restreintes et aux contenus appauvris. Avant même le recours généralisé à l'IA, les contenus et les recommandations de plateformes audiovisuelles telles que Netflix vont déjà en partie dans ce sens. Cette société du spectacle par individualisation des contenus inquiète vos rapporteurs.

De telles transformations profondes de la création artistique et des industries culturelles entraîneront de manière très probable une forte conflictualité sociale, comme l'ont montré les longues grèves de syndicats de scénaristes aux États-Unis, soutenues par différentes corporations d'artistes, dont celle des acteurs. La grève de la Writers Guild of America en 2023 avec ses 11 500 scénaristes face à l'Alliance of Motion Picture and Television Producers a ainsi duré du 2 mai au 27 septembre 2023, ce qui est historique.

* ²⁸⁷ Beaumarchais, fondateur de la première société d'auteurs en 1777, défendait le principe d'un tel droit d'auteur qui sera consacré par la loi pendant la Révolution française. On retrouve cette conception dans notre droit aujourd'hui. Cf. par exemple l'article L 111-1 du code de la propriété intellectuelle sur le site Légifrance : https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000042814694

* ²⁸⁸ Cette approche est présente dès la fondation du droit américain des brevets avec le Patent Act de 1790. Un discours ou une chorégraphie n'est par exemple pas protégé tant qu'il n'est pas transcrit sur un support. Le droit américain prévoit l'enregistrement de protection du copyright auprès du U.S. Copyright Office : ce n'est pas obligatoire, mais en cas de litige à la suite d'une utilisation ou d'une copie, si l'oeuvre n'est pas enregistrée, son auteur risque de ne bénéficier d'aucun dédommagement financier.

* ²⁸⁹ Cf. la directive du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique : http://data.europa.eu/eli/dir/2019/790/oj/fra

* ²⁹⁰ Le compte rendu de la réunion est disponible en ligne : https://www.senat.fr/compte-rendu-commissions/20231218/cult.html

* ²⁹¹ Sean Hollister, 2024, « Microsoft's AI Boss Thinks It's Perfectly Okay to Steal Content If It's on the Open Web », The Verge: https://www.theverge.com/2024/6/28/24188391/microsoft-ai-suleyman-social-contract-freeware

* ²⁹² Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données) (Texte présentant de l'intérêt pour l'EEE).

* ²⁹³ Cf. par exemple les conseils destinés aux entrepreneurs et aux jeunes (qu'Oussama Amar appelait la génération « tuto ») et distillés tout au long des années 2010 dans les conférences nommées « Les barbares attaquent » réalisées par The Family : https://www.youtube.com/watch?v=6k7ClozOnjk

* ²⁹⁴ Il existe des techniques dites « d'extraction » qui permettent d'obtenir des informations sur les données utilisées dans l'entraînement d'un modèle, mais il s'agit souvent d'un cas de détournement des règles d'utilisation des modèles selon les entreprises. Ces techniques peuvent il est vrai être utilisées de façon malveillante.

* ²⁹⁵ Rapport d'information de la commission des lois de l'Assemblée nationale déposé en conclusion des travaux de sa mission d'information sur les défis de l'intelligence artificielle générative en matière de protection des données personnelles et d'utilisation du contenu généré de Philippe Pradal et Stéphane Rambaud), rapport d'information n° 2207, 16^e législature : https://www.assemblee-nationale.fr/dyn/16/rapports/cion_lois/l16b2207_rapport-information

* ²⁹⁶ Article L.335-2 du Code de la propriété intellectuelle : « Toute édition d'écrits, de composition musicale, de dessin, de peinture ou de toute autre production, imprimée ou gravée en entier ou en partie, au mépris des lois et règlements relatifs à la propriété des auteurs, est une contrefaçon et toute contrefaçon est un délit. »

Les thèmes associés à ce dossier

Partager cette page