Comment un logiciel capable de créer presque n’importe quelle image à partir de quelques mots va changer la créativité humaine.
Quel est le visage de l’homme derrière la pomme ? Pendant près de 60 ans, le personnage portant un costume sombre et un chapeau melon dans le tableau de René Magritte « Le fils de l’homme » a été masqué par une pomme verte polie. Les traits de son visage devaient rester un mystère, le fruit une provocation artistique. Aujourd’hui, grâce aux nouvelles technologies, Josephine Miller, une artiste numérique de 23 ans, peut faire disparaître la pomme.
Dans le café feutré de la British Library de Londres, elle incline son ordinateur portable vers moi pour me montrer comment elle a utilisé Dall-E 2, un logiciel qui génère des images grâce à l’intelligence artificielle (IA), pour faire disparaître le fruit. Derrière elle se trouve un homme qui semble surpris d’être soudainement révélé, les sourcils levés et les yeux bleus perçants fixés sur une moustache savamment cirée. Le visage est peint dans le style un peu plat et la palette caractéristique de Magritte, comme si les deux images étaient peintes par la même main, côte à côte.
C’est un joli tour de passe-passe. Ensuite, Miller me montre qu’elle a généré non pas un mais 200 visages possibles. Magritte, un magicien dans l’âme, aurait probablement approuvé. Cette technologie, qui permet de créer des combinaisons artistiques quasi infinies en réponse à quelques mots ou images, a permis à Mme Miller de réaliser un travail qui aurait pris des mois avec les outils précédents ou qui n’aurait pas été possible du tout. C’est vertigineux, tant par ses capacités que par ses implications éthiques. Je lui demande si elle trouve cela accablant. « Non », me répond-elle immédiatement. « Bon, peut-être que ça l’est pour certaines personnes, mais moi je suis juste excitée ».
Dall-E 2 n’est qu’un des nombreux outils de génération d’images par l’IA qui sont devenus accessibles au public cette année. Depuis le printemps, l’internet a connu une explosion cambrienne de toutes les applications imaginables de cette technologie. La seule chose plus étonnante que la technologie elle-même est l’imagination débordante de ses utilisateurs : Nosferatu dans RuPaul’s Drag Race, la « Cène » de Vinci mais les apôtres se pressent pour prendre un selfie, la Révolution française vue du point de vue d’une caméra GoPro montée sur un casque, une bouteille de sauce ranch témoignant dans un tribunal. Tous ces éléments peuvent être produits en moins d’une minute sans grande expertise technique.
Et la technologie progresse rapidement. Il y a six mois, la plupart des outils peinaient à créer des visages humains, offrant généralement des combinaisons grotesques d’yeux, de dents et de membres perdus ; aujourd’hui, vous pouvez demander une « version photoréaliste de Jafar du film Aladdin de Disney prenant un bain de soleil sur Hampstead Heath » et obtenir presque exactement ce que vous recherchez.
Tout cela pour dire qu’il s’agit d’un moment charnière dans l’histoire de l’art. L’imagerie générée par l’IA « est une force perturbatrice majeure, qui aura des aspects à la fois démocratiques et oppressifs », déclare l’artiste britannique Matthew Stone, qui a utilisé Dall-E 2 pour créer les œuvres de sa dernière exposition. Des millions d’images sortent chaque jour de cette boîte de Pandore et, avec elles, un certain nombre de questions difficiles sur le plagiat, la paternité et le travail. Et peut-être la plus importante de toutes : est-ce la fin de la créativité humaine ?
L’une des premières choses que tout évangéliste vous dira à propos de la génération d’images par l’IA, c’est à quel point c’est facile à faire. Vous décrivez une image en langage naturel, comme vous le feriez en parlant à une autre personne, et le logiciel vous propose plusieurs résultats en quelques secondes.
Midjourney, un rival de Dall-E, propose un essai gratuit accessible via l’application de chat Discord. Ayant entendu dire qu’il excelle dans les images au style plus pictural, je décide d’essayer de réaliser des illustrations pour un livre pour enfants sur lequel je travaille, l’histoire d’un chat qui s’aventure autour de la Méditerranée à la recherche de son maître disparu. Je tape le texte de ma première idée :
L’image se développe devant mes yeux comme une photographie dans un bain chimique, commençant par être floue et gagnant progressivement en définition et en cohérence.
Le premier résultat n’est pas génial. L’IA m’a donné une tour générique plutôt qu’un minaret reconnaissable. Nous n’avons pas l’impression d’être à Istanbul et, pire encore, le visage du chat est grotesquement incrusté dans la brique de la tour elle-même. C’est ma première leçon de la génération d’images par l’IA : bien que les photos partagées sur les médias sociaux aient souvent l’air fantastiques, les résultats en cours de réalisation peuvent être terribles – laids, génériques ou ressemblant à peine à une invite même simple.
Comme l’essai gratuit se trouve sur un serveur de chat public, mon chat-minaret est rapidement perdu dans un flux incessant d’invites et d’images d’autres personnes. Je regarde ce qu’ils tapent pour essayer de glaner quelques conseils. Il semble que plus l’invite est détaillée, meilleurs sont les résultats. Plusieurs utilisateurs reviennent sans cesse sur la même idée, en modifiant les mots et la formulation pour améliorer leurs résultats. Une personne continue d’itérer sur l’idée d’une « patelle de soutien émotionnel » et, à chaque nouvelle version, l’escargot aquatique devient plus mignon.
Cela génère une nette amélioration – il y a un magnifique contraste entre l’orange rouille et l’indigo profond dans le ciel, avec des minarets pointus comme des aiguilles qui grattent les nuages teintés de rose. Pourtant, le chat n’est toujours pas à sa place. Dans une version, il domine l’architecture comme un adorable Godzilla. Dans une autre, il est de taille normale mais, pour une raison ou une autre, il est blanc, comme si le coucher de soleil lui avait enlevé toutes ses couleurs.
Tous les gens à qui je montre Dall-E 2 et Midjourney sont stupéfaits. Cette technologie a un impact immédiat et viscéral, surtout lorsque les gens voient leurs propres idées apparaître dans un espace mathématique abstrait. « Il n’y a pas d’intervalle entre le moment où l’on fait quelque chose et celui où l’on voit quelque chose, il suffit d’attendre quelques secondes, comme pour le chargement d’une page web, et des images inattendues surgissent tout simplement au lieu d’être le résultat d’un processus long et ardu », explique M. Stone. « C’est proche du rêve. »
Cela ressemble aussi à de la magie, mais ça n’en est pas. Joanne Jang, chef de produit de Dall-E 2, explique le fonctionnement de l’IA. Dall-E 2 est entraîné sur 650 millions d’images et leurs légendes descriptives. Elle apprend des concepts à partir de ces images, comme un enfant qui regarde des fiches de lecture. Si vous montrez à l’IA suffisamment de photos de yoga, elle en déduira que la pratique comprend différentes poses ainsi que les objets qui les accompagnent, tapis de yoga, blocs de liège, etc. Si vous lui montrez des girafes, elle comprendra que ces animaux ont un long cou et une peau à motifs. Une fois ces concepts compris, vous pouvez lui demander de générer une image d’une « girafe faisant du yoga » et il peut le faire, même si une telle image n’a jamais existé auparavant.
David Holz, le fondateur de Midjourney, explique la technologie de manière plus détaillée. L’outil doit résoudre trois problèmes, dit-il : comment le langage se rapporte-t-il aux images ? À quoi les images doivent-elles ressembler ? Enfin, et c’est le plus difficile, une question plus humaine : Que veulent voir les gens ? La capacité de répondre à ces questions a été rendue possible par la confluence de deux technologies. La première était un réseau neuronal appelé CLIP, capable de saisir la relation entre le langage et les images. L’autre est une série de modèles de génération d’images qui s’améliorent à un rythme rapide.
La première sortie publique d’images générées par l’IA en réponse à une invite linguistique a été l’annonce de l’original Dall-E en janvier 2021 par OpenAI, une société de recherche basée dans la Silicon Valley ayant des liens étroits avec Microsoft et comptant Elon Musk parmi ses fondateurs. Dall-E générait des images à l’aide d’une technologie qui fonctionnait comme la complétion automatique sur les smartphones, créant des images en utilisant la probabilité pour décider quels pixels devraient venir ensuite en fonction de ce qui est venu avant. Dall-E 2, son successeur, adopte une approche différente, appelée modèle de diffusion, qui génère des images à partir du bruit de l’image (essentiellement, un champ de pixels aléatoires comme les parasites d’un téléviseur) qui sont beaucoup plus précises, cohérentes et belles qu’auparavant.
D’autres sociétés et développeurs indépendants ont commencé à utiliser le modèle de diffusion pour créer leurs propres outils de génération d’images d’IA, chacun ayant ses propres particularités. Dall-E 2, dont le nom est un portmanteau du robot WALL-E de Pixar et de l’artiste Salvador Dalí, compte un million d’utilisateurs actifs et est généralement considéré comme excellent pour les images et les photographies réalistes. Midjourney a un style plus abstrait et artistique que les utilisateurs ont trouvé particulièrement efficace pour créer des images sur le thème de la fantaisie, de la science-fiction et de l’horreur. Une alternative open-source appelée Stable Diffusion est l’une des plus populaires parmi les concepteurs et les artistes ; il existe également Craiyon, un outil public gratuit dont le résultat est de moindre qualité et qui est surtout utilisé pour créer des mèmes, et ruDall-E, destiné aux utilisateurs russes.
Plusieurs grandes entreprises technologiques ont annoncé qu’elles travaillaient sur leurs propres versions, mais la plupart ne sont pas accessibles au public. Google a un outil appelé Imagen, Meta a Make-A-Scene, qui permet aux utilisateurs de télécharger un croquis pour guider l’IA, et Microsoft a NUWA-Infinity, qui se targue d’une remarquable fonctionnalité permettant de transformer une image fixe en vidéo.
La plupart des gens découvriront les images générées par l’IA sous la forme de mèmes sur les médias sociaux. Pour les artistes professionnels, Holz explique que la principale application de Midjourney est de compléter les domaines dans lesquels ils se sentent faibles, les arrière-plans, le choix des couleurs ou la composition, par exemple. Sur le serveur Discord, de nombreux utilisateurs ne sont pas, comme moi, doués pour les arts, mais sont ravis de participer à la création de quelque chose de beau, même si ce n’est qu’un Rubik’s Cube fait d’un sandwich au beurre de cacahuète et à la gelée. Certains créent des œuvres d’art pour des projets personnels pour lesquels ils n’auraient jamais pu se payer un artiste conceptuel. Plusieurs utilisateurs m’ont dit qu’ils avaient l’impression que la technologie avait démocratisé la création d’images professionnelles, qui ne sont plus freinées par le manque de financement ou de compétences techniques.
Diego Conte Peralta est un infographiste basé à Madrid qui a utilisé Dall-E 2, Midjourney et Stable Diffusion, ainsi que la formation de ses propres modèles personnalisés. Il partage son écran via Zoom pour me montrer le tableau blanc numérique où il annote méticuleusement ses expériences. Chaque ensemble d’images générées est soigneusement étiqueté avec les invites utilisées pour les créer. À première vue, cela ressemble au tableau en liège des suspects et des indices d’un détective de télévision.
C’est presque comme si la véritable créativité était un accident, et que l’IA nous aidait à devenir enclins aux accidents en nous faisant découvrir des choses auxquelles nous ne nous attendions pas.
Au fur et à mesure que nous nous déplaçons vers la droite du tableau, je peux voir comment il itère les invites et comment les images changent en conséquence. Une image ressemble à la peinture d’un homme aux yeux fermés, enveloppé dans une feuille de plastique. Le sujet était le suivant : « Visage expressif d’un jeune modèle masculin endormi enveloppé dans du plastique translucide, fond sombre, éclairage dramatique, 50 mm ». Peralta décrit l’évolution du sujet, qui lui a d’abord donné des figures génériques aux expressions stériles. Il a essayé de donner à l’homme différentes ethnies avec des résultats intéressants, mais ce n’est que lorsqu’il a pensé à ajouter le mot « sleeping » (dormir) qu’il a obtenu l’expression sereine et légèrement sinistre qu’il voulait.
Peralta édite ensuite les résultats plutôt que de traiter l’image générée par l’IA comme un produit fini. « C’est beaucoup plus intéressant pour moi parce que vous pouvez aller dans des endroits où même l’IA ne peut pas aller, et le résultat a toujours un élément humain », dit-il. Il me montre ensuite une série de portraits maculés et sinistres créés par un modèle d’IA qu’il a entraîné sur des peintures de Velázquez et de Rembrandt. Il a repris des éléments de leurs œuvres et les a utilisés comme textures dans ses propres créations numériques. « L’IA me donne un échantillon si bon que c’est presque une chanson », dit-il.
Récemment, il a demandé à l’IA de réaliser des portraits dans le style d’une peinture à l’huile, puis de les utiliser comme esquisses pour peindre avec de vraies huiles sur toile. L’étude de la production de Midjourney et de Dall-E 2 lui a appris de nouvelles techniques de peinture, l’aidant à perfectionner les nuances du mélange des couleurs ou de l’éclairage des visages. « Je vois cela comme une sorte d’outil et de ressource », déclare M. Peralta. Il trouve la technologie libératrice dans la mesure où elle lui permet d’itérer si rapidement. Même si les résultats ne sont pas tous bons, il dit qu’il peut trouver quelque chose qu’il veut faire avancer. « C’est un petit univers où vous pouvez faire tout ce que vous voulez sans coûts de production ni limitations ».
Les œuvres de Peralta, réalisées par une IA entraînée sur des millions d’images créées par des humains, soulèvent la question : Qui est vraiment l’artiste ? Est-ce la personne qui utilise l’outil d’IA ? Les personnes qui l’ont programmé ? Ou le créateur est-il désormais une entité distribuée, répartie entre les innombrables artistes et photographes qui ont créé les images qui ont entraîné l’IA ? La plupart des artistes à qui j’ai parlé et qui utilisent la génération d’images par l’IA semblent heureux de s’approprier le résultat, mais les critiques affirment qu’il ne s’agit pas d’art au sens où nous l’entendions auparavant.
Cette année, le prix de l’art numérique à la Colorado State Fair a été décerné à Jason M Allen, qui a réalisé son œuvre « Théâtre D’opéra Spatial » sur Midjourney. L’œuvre évoque une salle de trône fantastique où des femmes en robe ocre sont assises devant un portail menant à un paysage montagneux hivernal. Le prix a suscité un tollé parmi les artistes, dont beaucoup ont affirmé qu’il n’avait pas réellement réalisé l’œuvre. Mais Allen ne s’est pas repenti, arguant qu’il avait clairement indiqué comment il avait créé l’image et qu’il n’avait enfreint aucune règle. L’événement a été un test précoce de la façon dont le monde de l’art au sens large pourrait considérer les images d’IA à l’avenir.
De retour à Londres, M. Stone a demandé à Dall-E 2 de générer des variations de ses propres œuvres d’art, en utilisant des images comme invites plutôt que du texte. Il affirme que l’IA n’est pas encore assez performante pour créer des œuvres qu’il serait heureux de partager ou de vendre sans y consacrer beaucoup d’efforts. Pourtant, lorsque je lui demande s’il considérerait même le résultat brut comme son propre art, il est inébranlable. « Si je le revendique comme tel, alors oui », dit-il. « S’il y a un grand récit de l’histoire de l’art, alors il s’agit de la liberté et des artistes établissant qu’ils peuvent faire ce qu’ils veulent de n’importe quelle manière. »
Situer la génération d’images par IA dans cette lignée rappelle Marcel Duchamp et Andy Warhol, qui ont révolutionné l’art contemporain en s’appropriant des objets conçus par d’autres personnes, en les recontextualisant et en les revendiquant comme les leurs. Ils ont déplacé l’aiguille de ce qui constitue la valeur artistique loin de ce que vous avez fait de vos mains ou de la quantité de temps et d’habileté que vous y avez mis. Leurs monnaies artistiques étaient le concept et la narration.
Pourtant, l’essentiel de la créativité dans la génération d’images par l’IA réside dans l’élaboration de l’invite. D’où l’idée que l’art de l’IA est un processus de sélection plutôt que de création. Mais il y a toujours eu une composante éditoriale au cœur du processus artistique. « Même si je commence avec une intention claire de ce que je veux créer, il se passe généralement quelque chose au cours du processus qui donne un résultat inattendu », explique M. Stone. « J’ai donc l’impression que mon rôle consiste à reconnaître ces moments, à zoomer et à comprendre pourquoi une image particulière est devenue passionnante, puis à choisir de la répéter, de l’explorer et de l’approfondir. C’est presque comme si la vraie créativité était [un] accident, et que l’IA nous aidait à devenir des accidentés en faisant surgir des choses auxquelles nous ne nous attendions peut-être pas. »
Il est difficile de faire abstraction de l’humanité dans tout cela. Aucun de ces outils ne peut être utilisé sans un utilisateur humain (pour l’instant, du moins). Ils n’ont pas de volonté, d’agence ou même de mémoire. La même invite donnera un résultat différent à chaque fois. « Nous devons promouvoir l’idée que lorsque nous utilisons le numérique – parce que… il fait partie intégrante de nos vies – il peut contenir toute la subjectivité et le merveilleux désordre de l’être humain », explique M. Stone.
Dans les images générées par l’IA, une grande partie de ce « merveilleux désordre » provient des messages verbaux que les gens saisissent pour créer des images. Alors que nous communiquions autrefois avec les ordinateurs en utilisant des codes, ceux-ci apprennent de plus en plus notre langage. Parlez-leur comme à un autre humain et ils sont de plus en plus susceptibles de comprendre ce que vous voulez dire. Mais nous n’en sommes pas encore là, et chaque outil a encore une façon particulière de comprendre les mots, ce qui explique pourquoi les premières expériences de beaucoup de gens tombent à plat.
L’apprentissage du langage quelque peu déformé des générateurs d’images a donné naissance à un nouveau domaine appelé « prompt engineering » ou « prompt craft ». Mme Miller, l’artiste que j’ai rencontrée à la British Library, explique qu’il faut être précis avec les invites pour tirer le meilleur parti de ces outils. Elle a créé un petit guide pour elle-même, dans lequel elle a inclus les détails suivants : « Inspiré par quoi ? Décrire l’environnement ? Comment se sent-on ? Quelles couleurs ? Des adjectifs ? Quel support ? »
Lorsque vous parlez à l’IA et créez des images, vous convertissez le langage parlé en langage visuel plutôt que de créer de l’art.
Parfois, une légère bizarrerie dans la formulation peut dérouter l’IA. En essayant de générer un monstre digne d’un film d’horreur sur Midjourney, j’ai tapé « homme au visage de porc, HR Giger », en référence à l’artiste suisse connu pour ses dessins biomécaniques grotesques, dont la créature Xenomorph dans Alien. Les résultats imitent fidèlement le style lugubre et hyperdétaillé de Giger, mais tous présentent inexplicablement le visage du même homme. Après quelques recherches sur Internet, je me suis rendu compte que Midjourney avait compris que je voulais le visage réel de Giger avec quelques détails porcins. Lorsque j’ai modifié l’invite en » … dans le style de HR Giger « , cela a produit exactement l’image effrayante que je voulais créer.
La création de bonnes invites est une courbe d’apprentissage, en partie parce que l’IA est entraînée sur des légendes d’images connues sous le nom de « texte alternatif », qui sont des descriptions littérales détaillées des images Web fournies aux internautes malvoyants et utilisées par les moteurs de recherche. Il en résulte qu’il faut parfois être plus précis qu’avec un interlocuteur humain.
Sur Midjourney, je vois une invite qui dit : « une majestueuse salle du trône, à l’aube des temps, peinture sur verre, sur-glaçure, ornement, time-lapse, photojournalisme, grand angle, perspective, double exposition, lumière, tons de noir en arrière-plan, ultra-HD, super-résolution, échelle massive, perfectionnisme, éclairage doux, illumination globale par traçage de rayons, luminescence translucide, cristalline, reflets lumineux, dans un style symbolique et significatif, symétrique -q 5 -s 4975 -chaos 15 -ar 16:9 ». En tant que langage, c’est un non-sens absolu. Mais les résultats sont stupéfiants.
Il y a un tour de main pour écrire de bons prompts. Sur un site Web appelé PromptBase, les gens les achètent et les vendent comme un nouveau service créatif. « Je pense que le conseil en matière de prompts va devenir un métier à l’avenir », déclare M. Miller. « Je connais déjà des gens qui ont gagné de l’argent avec ça ». Mais les créateurs de Midjourney et de Dall-E 2 me disent qu’ils veulent s’éloigner du langage brouillé et non naturel, que ces outils devraient apprendre à mieux comprendre les humains, et non l’inverse.
Le fait que le langage soit au cœur d’un outil visuel peut sembler surprenant, mais la génération d’images par l’IA concerne en fait la communication autant que les images. Apprendre aux ordinateurs à comprendre le langage humain est au cœur de tous les projets d’OpenAI. Les deux premiers produits commerciaux de la société avant Dall-E étaient GPT-3, un modèle de langage capable de générer un texte cohérent, et Codex, qui génère du code informatique en réponse à des invites en langage naturel.
Photographie d’une femme réalisée par le FT avec Dall-E 2, en utilisant une invite écrite par le Redditor AnyTip8636. (Le message était : Portrait détaillé et réaliste d’une femme avec des taches de rousseur, des yeux ronds et des cheveux courts en désordre, prise à l’extérieur, portant un t-shirt blanc, texture de la peau, lèvres gercées, éclairage naturel doux, photographie de portrait, objectif 85 mm, photographie magique, éclairage dramatique, réalisme photo, composition ultra-détaillée, portrait intime, Cinestill 800T –testp –ar 9:16 –upbeta –)
Holz, le fondateur de Midjourney, me dit que les chercheurs en IA commencent à soupçonner que les ordinateurs pourraient apprendre à comprendre les langues et les images mieux en tandem que séparément. « Le langage est intimement lié aux images parce qu’il a été créé… pour décrire le monde qui nous entoure », explique-t-il. « Ainsi, lorsque vous parlez à l’IA et créez des images, vous convertissez le langage parlé en langage visuel. Plutôt que de créer de l’art, vous convertissez d’une langue à une autre, comme Google Translate. »
Bien qu’il prenne soin de toujours se référer à Midjourney comme à un outil plutôt qu’à une entité consciente, je note que même Holz utilise occasionnellement des verbes comme « comprend », « pense » ou « parle » lorsqu’il se réfère à l’IA, des mots qui impliquent la conscience, comme s’il nous manquait un langage pour décrire cette nouvelle relation. (Midjourney évite délibérément la personnification, choisissant une icône de marque qui est un bateau plutôt qu’un visage de robot).
Peralta adopte un point de vue similaire. « À l’heure actuelle, l’IA n’est qu’une question de statistiques », dit-il en me montrant certains de ses portraits générés par l’IA. « Ce nez est une caractéristique statistique, pas un nez. Lorsque vous comprenez cela en tant qu’artiste, vous utilisez l’outil d’une manière plus profonde que lorsque vous essayez de lui parler comme à un être humain. Grâce à l’invite, vous accédez à un échantillon spécifique de caractéristiques possibles et obtenez une distribution aléatoire de celles-ci dans une image. »
Et pourtant, il est tentant de personnifier l’IA. Lorsque Dall-E 2 a répondu à mon invite « un cadre photo en glace » par un cadre photo en bois contenant trois glaçons empilés, j’ai ressenti une envie soudaine de froisser affectueusement ses circuits imprimés et de murmurer : « Oh, je vois pourquoi tu as fait ça. Ne t’inquiète pas, tu apprendras. »
Même si nous traitons l’IA comme un simple outil, elle peut toujours jouer un rôle émotionnel dans nos vies. Holz et Jang ont tous deux été surpris par le nombre de personnes qui utilisent la génération d’images par l’IA comme une forme de thérapie, faisant des photos de leur chien au paradis après avoir perdu un animal de compagnie ou entrant des lignes de la poésie d’un membre de la famille décédé pour explorer ce à quoi leur monde visuel intérieur aurait pu ressembler.
Le plus fascinant est la capacité de cette technologie à servir les personnes atteintes d’aphantasie, une maladie qui se traduit par une absence d’imagerie mentale et qui toucherait jusqu’à 5 % de la population mondiale. Plusieurs personnes atteintes d’aphantasie ont contacté Jang à OpenAI pour lui dire que Dall-E leur a été d’une aide précieuse pour comprendre enfin comment la plupart des gens voient le monde.
Joel Pearson, un neuroscientifique qui a étudié l’aphantasie, affirme que l’absence d’imagerie mentale peut modifier la façon dont les gens réagissent émotionnellement aux stimuli. Un livre à la prose descriptive, par exemple, peut être moins agréable si vous ne pouvez pas en visualiser les scènes. Il a étudié la possibilité de créer un assistant d’images pour les personnes atteintes d’aphasie, qui pourrait, par exemple, être intégré à un lecteur électronique pour générer automatiquement des illustrations sur chaque page, presque comme une prothèse d’imagination visuelle.
Comme l’IA est entraînée sur des images tirées d’Internet, elle apprend à partir d’un stock d’images que les gens ont choisi de reproduire et de partager parce qu’ils les jugent significatives ou utiles. Une chose que cela révèle, c’est à quel point les préjugés sociaux sont ancrés dans nos ensembles de données. OpenAI a remarqué que si vous tapez le mot « infirmière », Dall-E 2 affichera toujours l’image d’une femme, tandis qu’un « PDG » sera toujours un homme blanc.
Dans une récente mise à jour, la société a tenté d’accroître la diversité des images générées en ajoutant de manière aléatoire des descriptions de race et de sexe dans les invites où elles ne sont pas déjà spécifiées par l’utilisateur. Lorsque Midjourney a demandé aux utilisateurs s’ils souhaitaient que l’outil modifie de manière aléatoire l’origine ethnique et le sexe des humains dans les images générées afin de maximiser la diversité, la réponse a été très majoritairement négative. Les personnes interrogées ont déclaré qu’elles auraient l’impression que le contrôle de l’auteur leur était retiré.
Un autre champ de mines est la modération du contenu. OpenAI interdit la génération de nudité, de violence, de campagnes politiques et de personnalités publiques. (Inviter Dall-E 2 avec « Liz Truss et Boris Johnson s’embrassant » donne un message d’erreur). Midjourney a interdit certains mots d’invite pour empêcher les gens de créer des images violentes. Vous ne pouvez pas utiliser le mot « art » pour tout justifier dans toutes les situations », explique Holz. « Les gens faisaient l’équivalent visuel de discours de haine, et nous leur disions qu’ils n’étaient pas autorisés. Ils répondaient : « Vous êtes quoi, un flic ? Je suis un artiste. Je devrais pouvoir faire ce que je veux ». Et c’est comme si, en fait, peut-être pas. »
Ce qui est plus inquiétant à long terme, c’est le pouvoir qu’ont ces outils de générer de la désinformation. La culture visuelle générale du public n’est pas élevée. Lors d’un test mené auprès d’environ 600 personnes, 80 % des répondants ont été incapables de reconnaître une photographie générée par l’IA, et 60 % n’ont pas réussi à identifier une œuvre d’art générée par l’IA, selon Tidio, une plateforme de service client. Comme il devient plus facile de créer des photographies convaincantes à des fins de désinformation, la valeur accordée aux images en tant que preuve dans les tribunaux ou les médias pourrait être amenée à changer.
Outre les préoccupations plus théoriques liées à la désinformation, il existe des menaces plus tangibles que cette technologie fait déjà peser sur la vie des artistes et des concepteurs. Le droit d’auteur, tout d’abord. Ces modèles ont été formés sur des créations humaines, mais ces créateurs n’ont jamais été invités à donner leur consentement ni à être rémunérés. Un groupe appelé Spawning a déjà lancé un outil, Have I Been Trained, qui permet aux artistes de voir si leurs images ont été utilisées pour entraîner des systèmes d’IA.
Plusieurs services, dont Dall-E et Midjourney, accordent désormais aux abonnés premium les droits commerciaux sur les images qu’ils créent. Et certaines bibliothèques numériques, comme Getty Images, ont interdit la vente et le téléchargement d’images générées par l’IA, invoquant des problèmes juridiques. Dans les années à venir, on peut s’attendre à ce que des affaires judiciaires fassent jurisprudence sur ces questions, le droit s’efforçant de rattraper le rythme du développement technologique.
Une menace plus existentielle est la question de savoir ce que cette IA signifiera pour les moyens de subsistance déjà précaires des artistes et des concepteurs. Les plus optimistes pensent que l’IA pourrait automatiser le côté banal du travail de conception graphique, permettant ainsi aux artistes de se concentrer sur leurs projets créatifs. Miller est philosophe sur le sujet : « Oui, cela va supprimer des emplois mais, en même temps, les emplois disparaissent depuis la révolution industrielle. Les emplois évoluent grâce à la technologie. Mon emploi n’existait pas il y a cinq ans ».
Plusieurs artistes sont moins positifs. J’entends de nombreuses histoires de designers dont le travail a été rejeté lorsque leur client a découvert qu’il pouvait utiliser Dall-E 2 pour obtenir un résultat beaucoup moins cher, peut-être moins bon, mais suffisamment bon. Même le directeur général d’OpenAI, Sam Altman, a écrit dans un billet de blog que, si l’IA va créer de nouveaux emplois, « je pense qu’il est important d’être honnête sur le fait qu’elle va de plus en plus rendre certains emplois peu pertinents. »
« J’ai eu une crise existentielle pendant les deux premières semaines où j’ai commencé à utiliser Dall-E », raconte Don Allen Stevenson III, un artiste numérique basé à Los Angeles. La technologie l’a incité, lui et sa fiancée, également artiste, à repenser leurs plans de vie afin de ne pas être financièrement dépendants de leur art. « Je pense que c’est fini pour les anciennes méthodes. Il est hors de question que les entreprises donnent la priorité à la valeur des artistes par rapport au capital. Les artistes doivent se mettre dans une position où ils peuvent changer et s’adapter, sinon ils vont disparaître. »
Pendant ce temps, la technologie se développe rapidement. « L’IA n’en est qu’à ses débuts, déclare le musicien et artiste numérique August Kamp, et c’est un bébé très intelligent. » D’ici un an, Holz pense que nous verrons des outils capables de créer des modèles 3D et des vidéos aussi facilement que Dall-E 2 et Midjourney créent des images. Il appelle cela « une certitude technologique ». Au cours de la décennie suivante, ces outils deviendront plus performants, moins chers et plus accessibles, jusqu’à ce qu’ils fassent « partie intégrante de notre vie quotidienne ». Il est facile d’imaginer que la génération d’images par l’IA pourrait être intégrée aux réseaux sociaux et devenir une nouvelle unité de communication entre amis, aussi banale que les emojis ou les gifs. Un filtre artistique de base est déjà disponible sur TikTok.
Toutes ces perturbations ne signifient pas nécessairement la mort de la créativité humaine. Lorsque l’appareil photo a été inventé, certains ont déclaré qu’il s’agissait de la fin de l’art, arguant que puisque prendre une photo demandait moins d’efforts et de compétences que peindre, c’était l’appareil, et non l’homme, qui était responsable de l’image finale. Aujourd’hui, la plupart des gens reconnaissent que les photographes d’art sont des artistes par les choix qu’ils font et la façon dont ils utilisent leurs outils.
L’histoire de l’art est intimement liée à l’histoire de la technologie. La peinture à l’huile était autrefois une nouvelle technologie, tout comme le son enregistré, le cinéma et les synthétiseurs de musique électronique. Chacune menaçait de rendre une forme d’art antérieure sans intérêt, mais cela ne s’est jamais vraiment produit. Les gens continuent à peindre à l’huile et à apprendre à jouer de la guitare. Les droits d’auteur et les paiements provoqueront des disputes, les emplois iront et viendront, l’éthique fournira un carburant sans fin pour les débats, mais l’art lui-même est trop vital pour être tué par les nouvelles technologies. Chaque fois qu’il semble menacé, ce n’est qu’une question de temps avant qu’il ne génère quelque chose de nouveau.
–
SEO INSIDE est une agence SEO à Lille (notamment…)
--
SEO Inside est une agence web et SEO - en savoir plus sur nous:
Agence web / Audit SEO / Conseil SEO / Création de site internet / Refonte de site internet optimisé pour le SEO / Référencement naturel / Référencement local /Netlinking / Formation SEO / E-Réputation et avis
Voici nos implantations :
Lille / Dunkerque / Amiens – ce sont nos 3 bureaux historiques.
Puis voici nos zones géographiques d’intervention :
Paris / Abbeville / Rouen / Compiègne / Reims / Metz / Caen / Evreux / Nancy / Colmar / Rennes / Le Mans / Orléans / Dijon / Besançon / Angers / Nantes / La Rochelle / Poitiers / Limoges /Clermont-Ferrand / Lyon / Annecy / Grenoble / Valence / Bordeaux / Montauban / Toulouse / Biarritz / Montpellier / Marseille / Cannes / Nice / Avignon / Monaco
SEO INSIDE est une agence web spécialiste en référencement naturel qui se veut proche de vous. Contactez-nous pour discuter de vos projets.