banner

Blog

Dec 01, 2023

Quand l'IA peut faire de l'art

Les générateurs d'images tels que Dall-E 2 peuvent produire des images sur n'importe quel thème que vous souhaitez en quelques secondes. Certains créatifs sont alarmés, mais d'autres sont sceptiques quant au battage médiatique

Lorsque l'artiste conceptuel et illustrateur RJ Palmer a été témoin pour la première fois du photoréalisme raffiné des compositions produites par le générateur d'images AI Dall-E 2, son sentiment était celui d'un malaise. L'outil, publié par la société de recherche sur l'IA OpenAI, a montré une nette amélioration par rapport au Dall-E de 2021, et a été rapidement suivi par des rivaux tels que Stable Diffusion et Midjourney. Tapez n'importe quelle invite surréaliste, de Kermit la grenouille dans le style d'Edvard Munch, à Gollum du Seigneur des Anneaux se régalant d'une tranche de pastèque, et ces outils renverront une représentation étonnamment précise quelques instants plus tard.

Internet s'est délecté des opportunités de création de mèmes, avec un compte Twitter documentant les "générations étranges de Dall-E" accumulant plus d'un million de followers. Cosmopolitan a claironné la première couverture de magazine générée par l'IA au monde, et les investisseurs en technologie se sont effondrés pour faire signe à la nouvelle ère de "l'IA générative". Les capacités de génération d'images se sont déjà étendues à la vidéo, avec la sortie d'Imagen Video de Google et de Make-A-Video de Meta.

Mais les nouvelles prouesses artistiques de l'IA n'ont pas été accueillies avec autant d'enthousiasme par certains créatifs. "La principale préoccupation pour moi est ce que cela fait pour l'avenir non seulement de mon industrie, mais des industries humaines créatives en général", déclare Palmer.

En ingérant de grands ensembles de données afin d'analyser des modèles et de construire des modèles prédictifs, l'IA s'est longtemps révélée supérieure aux humains dans certaines tâches. C'est ce nombre qui a conduit une IA à battre le champion du monde de Go en 2016, calculant rapidement la stratégie de jeu la plus avantageuse et n'ayant pas peur d'exécuter des mouvements qui auraient suscité des moqueries s'ils venaient d'une personne. Mais jusqu'à récemment, produire des productions originales, en particulier des travaux créatifs, était considéré comme une activité clairement humaine.

Les récentes améliorations de l'IA ont changé le cadran. Non seulement les générateurs d'images de l'IA peuvent désormais transposer des phrases écrites en nouvelles images, mais des progrès ont également été réalisés dans la génération de la parole par l'IA : les grands modèles de langage tels que GPT-3 ont atteint un niveau de fluidité qui a convaincu au moins un chercheur Google récemment licencié de sensibilité de la machine. Branchez l'œuvre de Bach et une IA peut improviser de la musique dans plus ou moins le même style - avec la mise en garde qu'il serait souvent impossible pour un orchestre humain de jouer réellement.

Cette classe de technologie est connue sous le nom d'IA générative et fonctionne selon un processus appelé diffusion. Essentiellement, d'énormes ensembles de données sont rassemblés pour former l'IA, et grâce à un processus technique, l'IA est capable de concevoir un nouveau contenu qui ressemble aux données de formation mais qui n'est pas identique. Une fois qu'il a vu des millions de photos de chiens étiquetés avec le mot "chien", il est capable de définir des pixels sous la forme d'un chiot entièrement nouveau qui ressemble suffisamment à l'ensemble de données pour que nous n'ayons aucun problème à l'étiqueter comme un chien. Ce n'est pas parfait - les outils d'image AI ont encore du mal à rendre des mains qui semblent humaines, les proportions du corps peuvent être erronées et ils ont l'habitude de produire une écriture absurde.

Alors que les internautes ont adopté ce potentiel créatif suralimenté – armés de l'invite correctement raffinée, même les novices peuvent désormais créer des toiles numériques saisissantes – certains artistes ont hésité devant la capacité de mimétisme de la nouvelle technologie. Parmi les invites entrées dans les générateurs d'images Stable Diffusion et Midjourney, beaucoup marquent le nom d'un artiste afin d'assurer un style plus esthétique pour l'image résultante. Quelque chose d'aussi banal qu'un bol d'oranges peut devenir accrocheur s'il est rendu dans le style, disons, de Picasso. Parce que l'IA a été formée sur des milliards d'images, dont certaines sont des œuvres protégées par le droit d'auteur d'artistes vivants, elle peut généralement créer une approximation assez fidèle.

Certains s'indignent de ce qu'ils considèrent comme un vol de leur marque artistique. Greg Rutkowski, un artiste conceptuel et illustrateur bien connu pour ses scènes fantastiques épiques infusées de lumière dorée, a déjà été mentionné dans des centaines de milliers d'invites utilisées dans Midjourney et Stable Diffusion. "Cela ne fait qu'un mois. Et dans un an ? Je ne pourrai probablement pas trouver mon travail là-bas parce que [Internet] sera inondé d'art de l'IA", a déclaré Rutkowski au MIT Technology Review. "C'est inquiétant."

Dall-E 2 est une boîte noire, OpenAI refusant de publier le code ou de partager les données sur lesquelles les outils ont été formés. Mais Stable Diffusion a choisi d'ouvrir son code et de partager les détails de la base de données d'images utilisée pour entraîner son modèle.

Spawning, un collectif d'artistes, a construit un outil appelé Have I Been Trained? pour aider les artistes à découvrir si leurs œuvres faisaient partie des 5,8 milliards d'images utilisées pour former Stable Diffusion, et à choisir d'apparaître ou non dans les futurs ensembles de formation. La société à l'origine de Stable Diffusion, Stability AI, s'est déclarée prête à travailler avec l'outil. Sur les 1 800 artistes qui se sont déjà inscrits pour utiliser l'outil, Matthew Dryhurst, universitaire et membre de Spawning, affirme qu'il s'agit d'une répartition 60/40 en faveur de l'opt-out.

Mais la Concept Art Association (CAA) souligne que le mal est déjà fait cette fois-ci, car les outils ont déjà été entraînés sur le travail des artistes sans leur consentement. "C'est comme si quelqu'un vous avait déjà volé en disant : 'Voulez-vous que je ne vous vole pas ?'", déclare Karla Ortiz, illustratrice et membre du conseil d'administration de CAA.

Emad Mostaque de Stability AI a déclaré que bien que les données utilisées pour former Stable Diffusion n'offraient pas d'option de désactivation, il s'agissait "en grande partie d'un modèle de test, fortement non optimisé sur un instantané d'images sur Internet". Il dit que les nouveaux modèles sont généralement formés sur de nouveaux ensembles de données et c'est à ce moment que l'entreprise prendrait en considération les demandes des artistes.

Il ne s'agit pas seulement d'œuvres d'art : l'analyse de la base de données de formation de Stable Diffusion a révélé qu'elle a également aspiré de la photographie médicale privée, des photos de membres du public (parfois accompagnées de leurs noms complets) et de la pornographie.

Ortiz s'oppose particulièrement à ce que Stability AI commercialise une partie de son fonctionnement - DreamStudio, qui offre aux clients des modèles personnalisés et une facilité d'utilisation améliorée. "Ces entreprises ont maintenant créé un précédent en ce sens que vous utilisez les données protégées par le droit d'auteur et privées de tout le monde sans même que personne n'accepte", dit-elle. "Puis ils disent : 'On n'y peut rien, le génie est sorti de la bouteille !'"

Que peut-on faire à ce sujet au-delà de compter sur la bienfaisance des entreprises derrière ces outils est toujours en question.

La CAA cite une législation britannique inquiétante qui pourrait permettre aux entreprises d'IA encore plus de liberté d'aspirer des œuvres créatives protégées par le droit d'auteur pour former des outils qui peuvent ensuite être déployés commercialement. Aux États-Unis, l'organisation a rencontré des responsables gouvernementaux pour parler de la loi sur le droit d'auteur et est actuellement en pourparlers avec des lobbyistes de Washington pour discuter de la manière de repousser cette question en tant qu'industrie.

Au-delà de la copie, il y a le problème encore plus important identifié par Palmer : ces outils mettent-ils en danger toute une catégorie de créatifs ? Dans certains cas, l'IA peut être utilisée à la place des images d'archives - la bibliothèque d'images Shutterstock a récemment conclu un accord avec OpenAI pour intégrer Dall-E dans son produit. Mais Palmer soutient que les œuvres d'art telles que l'illustration d'articles, de livres ou de couvertures d'albums pourraient bientôt faire face à la concurrence de l'IA, sapant un domaine florissant de l'art commercial.

Les propriétaires de générateurs d'images IA ont tendance à soutenir qu'au contraire, ces outils démocratisent l'art. "Une grande partie du monde est constipée de manière créative", a déclaré le fondateur de Stability AI, Emad Mostaque, lors d'un récent événement pour célébrer une levée de fonds de 101 millions de dollars, "et nous allons faire en sorte qu'ils puissent faire caca des arcs-en-ciel". Mais si tout le monde peut exploiter l'IA pour créer des images techniquement magistrales, qu'est-ce que cela dit sur l'essence de la créativité ?

Anna Ridler, une artiste connue pour son travail avec l'IA, dit que bien que Dall-E 2 se sente "comme par magie" la première fois que vous l'utilisez, jusqu'à présent, elle n'a pas ressenti d'étincelle d'inspiration dans ses expériences avec l'outil. Elle préfère travailler avec un autre type d'IA appelé réseaux antagonistes génératifs (GAN). Les GAN fonctionnent comme un échange entre deux réseaux, l'un créant de nouvelles images et l'autre déterminant dans quelle mesure l'image répond à un objectif spécifié. Un GAN artistique pourrait avoir pour objectif de créer quelque chose d'aussi différent que possible de ses données d'entraînement sans sortir de la catégorie de ce que les humains considéreraient comme de l'art visuel.

Ces questions ont intensifié le débat sur la mesure dans laquelle nous pouvons créditer l'IA de créativité. Selon Marcus du Sautoy, mathématicien de l'université d'Oxford et auteur de The Creativity Code : How AI is Learning to Write, Paint and Think, Dall-E et d'autres générateurs d'images se rapprochent probablement le plus de la reproduction d'une sorte de créativité « combinatoire », car le les algorithmes sont enseignés pour créer de nouvelles images dans le même style que des millions d'autres dans les données de formation. Les GAN du genre avec lesquels Ridler travaille sont plus proches de la créativité "transformationnelle", dit-il - créant quelque chose dans un style entièrement nouveau.

Ridler s'oppose à une telle approche stéréotypée pour définir la créativité. "Cela l'aplatit en pensant à l'art comme un papier peint intéressant, plutôt qu'à quelque chose qui essaie d'exprimer des idées et de rechercher la vérité", dit-elle. En tant qu'artiste conceptuelle, elle est bien consciente des lacunes de l'IA. "L'IA ne peut pas gérer les concepts : effondrer des moments dans le temps, la mémoire, les pensées, les émotions - tout cela est une véritable compétence humaine, qui fait une œuvre d'art plutôt que quelque chose qui est visuellement joli."

Les outils d'imagerie par IA démontrent certaines de ces lacunes. Alors que "l'astronaute à cheval" renverra un rendu précis, "l'astronaute à cheval" renverra des images qui se ressemblent beaucoup - indiquant que l'IA ne saisit pas vraiment les relations causales entre les différents acteurs dans le monde.

Dryhurst et Ridler soutiennent que l'idée du «remplacement de l'artiste» découle d'une sous-estimation du processus artistique. Dryhurst déplore ce qu'il considère comme les médias concoctant des récits alarmistes, soulignant un récent article du New York Times sur un artiste qui a utilisé Midjourney pour remporter la catégorie numérique du concours artistique annuel de la foire de l'État du Colorado. Dryhurst souligne qu'une foire d'État n'est pas exactement un forum prestigieux. "Ils distribuaient des prix pour des fruits en conserve", dit-il. "Ce qui m'agace, c'est qu'il semble y avoir cette sorte de soif d'effrayer les artistes."

"L'art est mort, mec", a déclaré le gagnant de la foire d'État.

Il est possible que le battage médiatique autour de ces outils en tant que forces perturbatrices dépasse la réalité. Mostaque dit que les générateurs d'images d'IA font partie de ce qu'il appelle des "médias intelligents", qui représentent une opportunité de "un billion de dollars", citant le budget de contenu de Disney de plus de 10 milliards de dollars (8,7 milliards de livres sterling) et la valeur de l'ensemble de l'industrie des jeux de plus de 170 milliards de dollars. "Chaque élément de contenu, de la BBC à Disney, sera rendu interactif par ces modèles", dit-il.

Les applications émergentes à l'heure actuelle sont plus prosaïques, notamment les moodboards pour le conseil en conception, les storyboards pour les films et les maquettes pour la décoration intérieure, et Mark Beccue, analyste à la division AI d'Omdia, est sceptique quant au chiffre de 1 milliard de dollars. "Quels sont les cas d'utilisation meurtriers ici ?" il dit. "Ça n'a pas de sens. Quel problème résolvez-vous avec ça ?" Un analyste de la société de conseil Accenture affirme que les outils pourraient un jour être utilisés pour créer du contenu pour former des algorithmes d'apprentissage automatique, comme dans les véhicules autonomes, et accélérer la création de jeux. Reste à savoir si cela représentera quelque chose d'aussi lucratif que les générateurs d'images AI et leurs bailleurs de fonds.

PARTAGER