banner

Blog

Dec 03, 2023

3 questions : comment les générateurs d'images IA pourraient aider les robots

Image précédente Image suivante

Les générateurs d'images d'IA, qui créent des vues fantastiques à l'intersection des rêves et de la réalité, bouillonnent à tous les coins du Web. Leur valeur de divertissement est démontrée par un trésor en constante expansion d'images fantaisistes et aléatoires servant de portails indirects vers le cerveau des concepteurs humains. Une simple invite de texte donne une image presque instantanée, satisfaisant nos cerveaux primitifs, qui sont câblés pour une gratification instantanée.

Bien qu'apparemment naissant, le domaine de l'art généré par l'IA remonte aux années 1960 avec les premières tentatives utilisant des approches symboliques basées sur des règles pour créer des images techniques. Alors que la progression des modèles qui démêlent et analysent les mots a gagné en sophistication, l'explosion de l'art génératif a suscité des débats autour du droit d'auteur, de la désinformation et des préjugés, tous embourbés dans le battage médiatique et la controverse. Yilun Du, doctorant au Département de génie électrique et d'informatique et affilié au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT, a récemment développé une nouvelle méthode qui rend les modèles comme DALL-E 2 plus créatifs et ont une meilleure compréhension de la scène. Ici, Du décrit comment ces modèles fonctionnent, si cette infrastructure technique peut être appliquée à d'autres domaines et comment nous traçons la frontière entre l'IA et la créativité humaine.

Q : Les images générées par l'IA utilisent ce qu'on appelle des modèles de "diffusion stable" pour transformer les mots en images étonnantes en quelques instants seulement. Mais pour chaque image utilisée, il y a généralement un humain derrière. Alors, quelle est la frontière entre l'IA et la créativité humaine ? Comment fonctionnent réellement ces modèles ?

UN: Imaginez toutes les images que vous pourriez obtenir sur la recherche Google et leurs modèles associés. C'est le régime dont ces modèles sont nourris. Ils sont formés sur toutes ces images et leurs légendes pour générer des images similaires aux milliards d'images vues sur Internet.

Disons qu'un modèle a vu beaucoup de photos de chiens. Il est formé de sorte que lorsqu'il reçoit une invite de saisie de texte similaire comme "chien", il est capable de générer une photo qui ressemble beaucoup aux nombreuses images de chiens déjà vues. Maintenant, plus méthodologiquement, le fonctionnement de tout cela remonte à une très ancienne classe de modèles appelés "modèles basés sur l'énergie", originaires des années 70 ou 80.

Dans les modèles basés sur l'énergie, un paysage énergétique sur des images est construit, qui est utilisé pour simuler la dissipation physique pour générer des images. Lorsque vous déposez un point d'encre dans l'eau et qu'il se dissipe, par exemple, à la fin, vous obtenez simplement cette texture uniforme. Mais si vous essayez d'inverser ce processus de dissipation, vous récupérez progressivement le point d'encre d'origine dans l'eau. Ou disons que vous avez cette tour de blocs très complexe, et si vous la frappez avec une balle, elle s'effondre en un tas de blocs. Ce tas de blocs est alors très désordonné, et il n'y a pas vraiment de structure. Pour ressusciter la tour, vous pouvez essayer d'inverser ce processus de pliage pour générer votre tas de blocs d'origine.

La façon dont ces modèles génératifs génèrent des images est très similaire, où, au départ, vous avez cette très belle image, où vous partez de ce bruit aléatoire, et vous apprenez essentiellement à simuler le processus d'inversion de ce processus d'aller du bruit à votre image d'origine, où vous essayez d'affiner itérativement cette image pour la rendre de plus en plus réaliste.

En ce qui concerne la frontière entre l'IA et la créativité humaine, vous pouvez dire que ces modèles sont vraiment formés sur la créativité des gens. Internet propose tous les types de peintures et d'images que les gens ont déjà créées dans le passé. Ces modèles sont formés pour récapituler et générer les images qui ont été sur Internet. En conséquence, ces modèles ressemblent davantage à des cristallisations de ce sur quoi les gens ont dépensé leur créativité pendant des centaines d'années.

En même temps, parce que ces modèles sont formés sur ce que les humains ont conçu, ils peuvent générer des œuvres d'art très similaires à ce que les humains ont fait dans le passé. Ils peuvent trouver des modèles dans l'art que les gens ont créé, mais il est beaucoup plus difficile pour ces modèles de générer eux-mêmes des photos créatives.

Si vous essayez d'entrer une invite comme "art abstrait" ou "art unique" ou similaire, il ne comprend pas vraiment l'aspect créatif de l'art humain. Les modèles récapitulent plutôt ce que les gens ont fait dans le passé, pour ainsi dire, au lieu de générer un art fondamentalement nouveau et créatif.

Étant donné que ces modèles sont formés sur de vastes étendues d'images provenant d'Internet, beaucoup de ces images sont probablement protégées par le droit d'auteur. Vous ne savez pas exactement ce que le modèle récupère lorsqu'il génère de nouvelles images, il y a donc une grande question de savoir comment vous pouvez même déterminer si le modèle utilise des images protégées par le droit d'auteur. Si le modèle dépend, dans un certain sens, de certaines images protégées par le droit d'auteur, ces nouvelles images sont-elles alors protégées par le droit d'auteur ? C'est une autre question à aborder.

Q : Croyez-vous que les images générées par les modèles de diffusion codent une sorte de compréhension des mondes naturels ou physiques, dynamiquement ou géométriquement ? Y a-t-il des efforts pour "enseigner" aux générateurs d'images les bases de l'univers que les bébés apprennent si tôt ?

UN: Comprennent-ils, en code, une certaine compréhension des mondes naturels et physiques ? Je pense définitivement. Si vous demandez à un modèle de générer une configuration stable de blocs, il génère définitivement une configuration de blocs stable. Si vous lui dites, générez une configuration instable de blocs, cela semble très instable. Ou si vous dites "un arbre à côté d'un lac", il est à peu près capable de générer cela.

Dans un sens, il semble que ces modèles aient capturé un large aspect du bon sens. Mais le problème qui nous rend, encore, très loin de vraiment comprendre le monde naturel et physique, c'est que lorsque vous essayez de générer des combinaisons de mots peu fréquentes que vous ou moi, dans notre travail, nos esprits pouvons très facilement imaginer, ces modèles ne le peuvent pas.

Par exemple, si vous dites « mettez une fourchette sur une assiette », cela arrive tout le temps. Si vous demandez au modèle de générer cela, il le peut facilement. Si vous dites, "mettez une assiette sur une fourchette", encore une fois, il est très facile pour nous d'imaginer à quoi cela ressemblerait. Mais si vous mettez cela dans l'un de ces grands modèles, vous n'obtiendrez jamais une assiette sur une fourchette. Au lieu de cela, vous obtenez une fourchette sur une assiette, car les modèles apprennent à récapituler toutes les images sur lesquelles ils ont été entraînés. Il ne peut pas vraiment généraliser aussi bien à des combinaisons de mots qu'il n'a pas vus.

Un exemple assez connu est un astronaute à cheval, ce que le modèle peut faire facilement. Mais si vous dites qu'un cheval monte un astronaute, cela génère toujours une personne qui monte à cheval. Il semble que ces modèles capturent beaucoup de corrélations dans les ensembles de données sur lesquels ils sont entraînés, mais ils ne capturent pas réellement les mécanismes de causalité sous-jacents du monde.

Un autre exemple couramment utilisé est si vous obtenez des descriptions de texte très compliquées comme un objet à droite d'un autre, le troisième objet à l'avant et un troisième ou quatrième volant. Il n'est vraiment capable de satisfaire peut-être qu'un ou deux des objets. Cela pourrait être en partie dû aux données de formation, car il est rare d'avoir des légendes très compliquées. Mais cela pourrait également suggérer que ces modèles ne sont pas très structurés. Vous pouvez imaginer que si vous obtenez des invites en langage naturel très compliquées, le modèle ne peut en aucun cas représenter avec précision tous les détails des composants.

Q : Vous avez récemment mis au point une nouvelle méthode qui utilise plusieurs modèles pour créer des images plus complexes avec une meilleure compréhension de l'art génératif. Existe-t-il des applications potentielles de ce cadre en dehors des domaines de l'image ou du texte ?

UN: Nous nous sommes vraiment inspirés d'une des limites de ces modèles. Lorsque vous donnez à ces modèles des descriptions de scènes très compliquées, ils ne sont pas en mesure de générer correctement des images qui leur correspondent.

Une pensée est, puisqu'il s'agit d'un modèle unique avec un graphique de calcul fixe, ce qui signifie que vous ne pouvez utiliser qu'une quantité fixe de calcul pour générer une image, si vous obtenez une invite extrêmement compliquée, il n'y a aucun moyen d'utiliser plus de puissance de calcul pour générer cela image.

Si je donnais à un humain une description d'une scène qui faisait, disons, 100 lignes par rapport à une scène qui n'en faisait qu'une, un artiste humain peut passer beaucoup plus de temps sur la première. Ces modèles n'ont pas vraiment la sensibilité pour le faire. Nous proposons donc qu'avec des invites très compliquées, vous puissiez en fait composer ensemble de nombreux modèles indépendants différents et faire en sorte que chaque modèle individuel représente une partie de la scène que vous souhaitez décrire.

Nous constatons que cela permet à notre modèle de générer des scènes plus compliquées, ou celles qui génèrent plus précisément différents aspects de la scène ensemble. De plus, cette approche peut être généralement appliquée à une variété de domaines différents. Alors que la génération d'images est probablement l'application la plus réussie actuellement, les modèles génératifs ont en fait vu tous les types d'applications dans une variété de domaines. Vous pouvez les utiliser pour générer différents comportements de robots, synthétiser des formes 3D, permettre une meilleure compréhension de la scène ou concevoir de nouveaux matériaux. Vous pouvez potentiellement composer plusieurs facteurs souhaités pour générer le matériau exact dont vous avez besoin pour une application particulière.

Une chose qui nous intéresse beaucoup est la robotique. De la même manière que vous pouvez générer différentes images, vous pouvez également générer différentes trajectoires de robot (le chemin et le calendrier), et en composant différents modèles ensemble, vous pouvez générer des trajectoires avec différentes combinaisons de compétences. Si j'ai des spécifications en langage naturel sur le saut par rapport à l'évitement d'un obstacle, vous pouvez également composer ces modèles ensemble, puis générer des trajectoires de robot qui peuvent à la fois sauter et éviter un obstacle.

De la même manière, si nous voulons concevoir des protéines, nous pouvons spécifier différentes fonctions ou aspects - de manière analogue à la façon dont nous utilisons le langage pour spécifier le contenu des images - avec des descriptions de type langage, telles que le type ou la fonctionnalité de la protéine. Nous pourrions ensuite les composer ensemble pour générer de nouvelles protéines pouvant potentiellement satisfaire toutes ces fonctions données.

Nous avons également exploré l'utilisation de modèles de diffusion sur la génération de formes 3D, où vous pouvez utiliser cette approche pour générer et concevoir des ressources 3D. Normalement, la conception d'actifs 3D est un processus très compliqué et laborieux. En composant différents modèles ensemble, il devient beaucoup plus facile de générer des formes telles que "Je veux une forme 3D à quatre pieds, avec ce style et cette hauteur", automatisant potentiellement des parties de la conception d'actifs 3D.

Article précédent Article suivant

Q : R : Q : R : Q : R :
PARTAGER