Article 8 minutes de lecture

Choisir un modèle d’IA, le casse-tête des artistes (1/2)

Digital

04.06

Choisir un modèle d’IA, le casse-tête des artistes (1/2) — Hyperphantasia – Des origines de l’image © Justine Emard – Le Fresnoy

Auteurice de l’article :

Adrien Cornelissen

Au fil de ses expériences, Adrien Cornelissen a développé une expertise sur les problématiques liées à l'innovation et la création numérique. Il a collaboré avec une dizaine de magazines français dont Fisheye Immersive, XRMust, Usbek & Rica, Nectart ou la Revue AS. Il coordonne HACNUMedia qui explore les mutations engendrées par les technologies dans la création contemporaine. Adrien Cornelissen intervient dans des établissements d’enseignement supérieur et des structures de la création.

Logiciels propriétaire, libre et open source

La médiatisation de l’intelligence artificielle générative est aujourd’hui trustée par les modèles d’entreprises californiennes. Hormis les produits d’OpenAI (ChatGPT, Dall-E, Sora…), les artistes ont encore une visibilité réduite des outils existants sur le marché. Et pourtant il existe des dizaines de modèles – propriétaires, libres et open source – répondant à des enjeux artistiques ou éthiques diamétralement opposés. Tour d’horizon de quelques questionnements sous-jacents à ces outils, appuyés par plusieurs témoignages.

Cet article est une republication. Celui d’origine est publié sur HACNUMedia (le média qui explore les liens entre technologies et création), partenaire de kingkong.

Le choix d’un modèle d’IA dédié à la création se fait souvent sur des critères artistiques (génération d’images, de vidéos, de sons, de textes…) et esthétiques (textures spécifiques à un algorithme), et en fonction d’un certain nombre de contraintes relatives à un projet (finances disponibles, compétences en codage informatique…). À défaut de proposer un comparatif des modèles disponibles sur le marché – qui serait instantanément obsolète – cet article cherche à comprendre l’impact de certains logiciels d’IA. Ce premier volet analyse quelques effets induits par les logiciels propriétaires, libres et open source. Un second volet, prochainement publié, analysera les enjeux selon le type de dataset.

Plusieurs catégories de logiciels

La première analyse consiste donc à observer la nature des logiciels utilisés. En effet, les éditeurs de logiciels adoptent des stratégies commerciales et philosophiques parfois aux antipodes. Les logiciels peuvent être classés selon différentes catégories. Première catégorie : les logiciels propriétaires autrement appelé “logiciel commercial” ou “fermé”, dont le code source est détenu et contrôlé exclusivement par une entreprise. Elle détient alors les droits exclusifs sur le logiciel, ce qui signifie que les utilisateurices ne sont pas autorisé·es à accéder au code source, à le modifier ou à le redistribuer sans la permission explicite du détenteur des droits. Les logiciels propriétaires peuvent bien entendu ouvrir leur accès “gratuitement” (stratégie des abonnements freemium). Deuxième catégorie : les logiciels libres. Ils garantissent aux utilisateurices d’exécuter le programme pour une variété d’usages, la liberté d’étudier le fonctionnement du programme et de l’adapter à ses besoins, la liberté de redistribuer des copies, et la liberté d’améliorer le programme et de publier ces améliorations. L’usage commercial est encadré sous forme de licences (MIT, Creative Commons, Apache 2.0, GPL…). Enfin, quoique assez proche des logiciels libres, l’open source met l’accent sur l’accessibilité au code source et la collaboration communautaire pour le développement et la diffusion du logiciel. Néanmoins un modèle open source peut être porté par une entreprise privée. C’est le cas de l’IA générative Llama ou de l’IA OpenELM respectivement développés par les géants américains Meta et Apple. Soyons clair, l’open source n’est donc pas nécessairement synonyme de philanthropie.

Chaque éditeur définit une stratégie qui mériterait d’être spécifiquement auscultée et d’analyser en détail tous leurs effets. Néanmoins ces trois catégories de logiciels “IA propriétaires” (Dall-E, ChatGPT, Midjourney, Adobe Sensei, Prisma…), “libres” ou “IA open source” (Hugging Face, Stable Diffusion, WarpFusion, OpenELM…) permettent d’emblée de distinguer quelques enjeux essentiels pour les artistes.

La pérennité d’une œuvre

L’obsolescence n’échappe à aucun modèle d’IA et a une incidence directe sur la pérennité d’une œuvre d’art. Côté logiciels propriétaires, le risque pour un·e artiste est donc de dépendre des modifications de l’éditeur. Michal Seta, creative technologist au Lab148 à Montréal qui s’est spécialisé sur des solutions d’IA pour des projets artistiques, témoigne : “récemment j’ai entendu Sandra Rodriguez qui présentait son installation Chom5ky vs. Chomsky. Pour ce projet l’artiste a utilisé ChatGPT qui a simulé la voix de Noam Chomsky. Elle a travaillé durant plusieurs années sur des prompts qui déclenchaient certaines actions. Et puis il y a eu une mise à jour du modèle d’IA de la part de l’éditeur. Les évolutions du modèle rendaient des résultats des prompts incohérents et non reproductibles au cours des itérations du développement. Si on se fie aux solutions propriétaires dans le cloud, on risque d’avoir des surprises, particulièrement dans les cas où l’artiste manifeste son désir de bâtir quelque chose sur mesure qui va durer dans le temps.” Les éditeurs mettent régulièrement à jour leurs modèles et font évoluer ce qu’ils peuvent juger comme des défauts, des imperfections. L’artiste Bruno Ribeiro évoque lui aussi cette D.L.C inhérentes aux modèles, en faisant directement écho à son travail Polydactylie (référence à la difficulté des modèles d’IA de représenter convenablement les cinq doigts et les mains des êtres humains). “L’œuvre Rabbit Hole a été créée en 2023, sur une version de Stable Diffusion qui a depuis été mise à jour. Si je refais les mêmes prompts mais avec des checkpoints récents, je n’aurais plus le même résultat. Or, la polydactylie, c’est justement mon propos, c’est ce qui permet de révéler qu’une image a été générée par un programme d’Intelligence Artificielle. J’ai gardé les versions précédentes de cette IA mais je sais qu’il sera difficile de les réutiliser. Il y a une obsolescence flagrante avec les modèles d’IA sur le marché.”

En effet, les modèles d’IA ont leur propre subjectivité et esthétique. Justine Emard, spécialiste de l’IA, dont le corpus artistique explore la relation des êtres humains aux machines et à d’autres formes de vie, explique l’étendue de la palette “Il existe des modèles qui vont naturellement tendre vers un effet 3D. D’autres modèles, entraînés à partir de données comprenant des visages humains, vont s’orienter vers des rendus anthropomorphiques.” L’artiste évoque justement une sorte de revival pour d’anciens modèles capables de générer des déformations plus fluides. “J’entends plusieurs artistes manifester leur intérêt pour des modèles datant de 2019-2020. Ces modèles créaient peut être de la bouillie de pixel mais ils étaient justement intéressants pour leur imperfection, pour leur grain.” Sur ce point donc, avantage à l’open source qui permet d’avoir un accès permanent au code source et d’assurer une certaine pérennité artistique et à terme une conservation des œuvres.

L’open source, une philosophie séduisante

Marc Chemillier, directeur d’étude à l’EHESS de Paris, est co-créateur (avec d’autres chercheur·euses de l’IRCAM) de Djazz, une IA permettant d’improviser musicalement à partir de sons enregistrés. C’est justement l’option open source qui a été retenue pour le développement du logiciel. D’abord parce que le projet est soutenu par des financements publics de la recherche et également parce que la communauté permettra d’assurer la continuité du projet. “Nous allons publier toutes les sources du projet, tout sera accessible sur GitHub. Notre désir est de voir une communauté se former sur ce patch programmé dans Max/MSP (ndlr : logiciel utilisé dans le domaine de la création numérique). L’obsolescence est trop rapide, il faut que ce soit pris en main par les artistes elleux-mêmes. Pour nous “open source” est synonyme de préservation du bien commun.” Ce choix relève d’abord d’un idéal politique : “La philosophie fondamentale de l’open source vient de la recherche. Elle tire ses origines des conséquences de la Seconde Guerre mondiale, de la bombe nucléaire. Après la tragédie atomique, toute la recherche scientifique était animée d’un idéal de partage, ajoute Marc Chemillier avant de glisser une remarque pertinente, mais c’est une zone en tension, les politiques et les industriels tendent à brouiller cette logique.” La stratégie adoptée par Apple donne pourtant matière à réflexion : à la surprise générale, la marque a publié au printemps, dans la bibliothèque Hugging Face, quatre versions d’un modèle de langage inconnu, baptisé OpenELM. Un modèle open source, dont une partie du code est aussi disponible sur GitHub. Avec cette approche plus ouverte, Apple espère agréger les utilisateurices autour d’OpenELM et qu’ils·elles contribuent à son amélioration.

Dans la majorité des cas, les modèles open source peuvent-ils réellement rivaliser avec les puissants moyens du secteur privé ? Il n’est pas rare en effet que des chercheur·euses soient débauchés par des start-ups comme des multinationales ou que des modèles open source soient finalement rachetés par des entreprises. “En général dans le cadre de ces transferts de connaissance, les entreprises ne prennent que ce qui les intéresse et les projets peuvent être défigurés. Pourtant ces capitaux permettent d’améliorer, upgrader les versions”, analyse Marc Chemillier. L’open source n’est donc pas nécessairement gage de pérennité, ni d’ergonomie.

Une prise en main complexe

En effet, dans ce large panel de modèles, beaucoup d’artistes manquent encore de repère. Sabrina Ratté, artiste canadienne internationalement reconnue dans le domaine des arts contemporains, explore les questions d’intelligence artificielle dans son travail (Plane of Incidence). Elle témoigne de l’arrivée des outils d’IA dans sa pratique : “Pour moi c’est encore nouveau et complexe. Installer tous ces logiciels d’IA peut être fastidieux, d’autant que j’ai l’impression que ces outils open source sont peu accessibles, peu ergonomiques. Les logiciels propriétaires, davantage connus du grand public, peuvent parfois avoir de meilleures interfaces mais ne répondent pas forcément aux besoins d’un·e artiste. Dans mon esprit, c’est encore abstrait.” Pour affiner ces besoins, l’artiste intègre justement une résidence à Sporobole situé à Sherbrooke au Québec. Ce centre aura pour objectif d’accompagner l’artiste sur les solutions techniques les plus adaptées : “La technologie reste un outil et non une finalité mais cette résidence va me permettre de mieux comprendre les modèles d’IA, les enjeux et de structurer ma production artistique”, ajoute t-elle.

Si certaines interfaces de logiciels propriétaires se distinguent par leur ergonomie – et sans aucun doute sur leur force de frappe marketing et les moyens à disposition en communication – les modèles open source ont tout de même de nombreuses ressources à disposition. Michal Seta partage quelques références : “Avec Lab148, on a commencé à explorer tous ces modèles. On s’est rendu compte qu’il existe des ressources, des papiers universitaires, des bases de données, des modèles rendus publics. Le site paperswithcode compile énormément de recherches. Mais attention, 99% du temps, il faut avoir de bonnes bases de code, notamment du langage python.” Bruno Ribeiro confirme lui aussi le nombre de ressources disponibles en ligne. “Il y a mille tutoriels Youtube et au moins autant d’outils d’intelligence artificielle qui sortent tous les jours. C’est un peu le far west mais j’ai l’impression qu’en seulement quelques semaines de travail, un·e artiste peut se former à ses logiciels. Je recommande la plateforme Pinokio, qui permet d’installer des logiciels open source de grande qualité et relativement user friendly. Quand on creuse, on peut avoir des résultats d’une qualité supérieure à Midjourney.” Autre référence similaire à Pinokio, le site Replicate, une mine d’or de modèles en open source. Côté logiciels propriétaires, la disponibilité des ressources en ligne est également au centre des stratégies de déploiement. Le réseau social Discord a ainsi été un pilier dans la stratégie de déploiement de Midjourney, à tel point qu’il aura pendant plusieurs mois remplacé son site officiel (les utilisateur·rices novices doivent encore passer par Discord).

La question de l’accessibilité

Les modèles libres ou open source ont un avantage incomparable sur les modèles propriétaires : sa gratuité. Et malgré des modèles économiques qui se cherchent encore, certaines initiatives ne laissent pas à la marge les auteur·rices. “J’utilise WarpFusion basé sur Stable Diffusion. L’utilisateurice peut avoir accès à des dizaines de patchs supplémentaires par un système d’abonnement qui rétribue son auteur”, commente Bruno Ribeiro.

Du côté des logiciels propriétaires, les abonnements à certains modèles peuvent représenter des montants conséquents pour un·e artiste ou un studio. À titre d’exemple, comptez environ 600$ annuel pour un compte pro à Midjourney (le pricing d’OpenAI se basant sur une logique de token est finalement assez similaire). Cumulez ce montant à d’autres logiciels propriétaires, et les factures mensuelles seront très loin d’être négligeables. Mais la stratégie des logiciels propriétaires est rodée depuis longtemps déjà. Adobe, un modèle du genre, a fait en sorte que le logiciel devienne la référence dans le domaine de la création et ce dès les études supérieures des étudiant·es. OpenAI communique déjà spécifiquement auprès des enseignant·es Teaching with AI et a annoncé des partenariats avec certaines universités comme celle d’Arizona. Cette stratégie d’implantation se répandra à coup sûr dans les prochains mois mais révèle aussi une absence de vision de la part de l’ensemble des acteurices de la création artistique.

Pour cela, la transmission des informations et la formation aux modèles d’IA sont des orientations que le secteur de la création artistique doit investir. Justine Emard confie qu’elle “échange régulièrement avec des artistes, des musicien·nes et des compositeurices. Beaucoup ont vu l’arrivée d’OpenAI comme une chose soudaine mais peu ont conscience de l’état de la recherche scientifique des dernières décennies. Dans l’engouement que suscite l’IA, il manque de la pédagogie. On peut aller beaucoup plus loin en créant ses propres outils. Et puis ce n’est pas l’outil qui fait l’artiste. C’est la façon dont conceptuellement tu l’as mis en œuvre.” C’est sans doute là un postulat à intégrer avant tout choix d’un modèle d’IA !

Appel à projet

Une histoire, des projets ou une idée à partager ?

Proposez votre contenu sur kingkong.