Article 5 minutes de lecture

Et soudain, des visages

Digital Technologie

16.11

Et soudain, des visages — Photo réaliste d’une femme au visage flou © DALL.E

Auteurice de l’article :

Clément Boileau

Après un master en journalisme à l'Université Libre de Bruxelles, je suis rentré à La Libre Belgique en tant qu'éditeur du Journal Numérique Enrichi. J'ai par la suite édité les pages régionales, puis nationales. En 2018, j'ai rejoint le service "Débats" de La Libre. Aujourd'hui actif à L'Avenir, J'ai contribué à fonder en 2014 la revue Papier Machine.

Le visage qui s’affiche sur l’écran est celui d’une femme blanche d’environ trente ans. Souriante, arborant des lunettes rectangulaires noire, les yeux marron, les cheveux châtain clair, raides, coupés à mi-longueur. Quelques ridules ornent les coins des yeux, une fossette creuse sa joue gauche. Ses dents sont blanches, assombries par quelques reflets grisâtres.

Au premier coup d’oeil, rien ne laisse croire que cette personne n’existe pas. C’est pourtant le cas. Ce visage est issu du site thispersondoesnotexist.com, et il a été entièrement conçu par une intelligence artificielle, plus précisément par un GAN (Generative Adversarial Networks, “réseau antagoniste génératif” en français). En quelques années, cette branche du deep learning a donné lieu à des avancées significatives dans le domaine de l’intelligence artificielle, qu’il s’agisse du développement des voitures autonomes ou de la reconnaissance vocale, avec des résultats de plus en plus précis. Voici comment cette petite révolution, d’abord restée confidentielle, s’est frayé un chemin jusque dans votre smartphone.

Portraits de personnes créés à partir de thispersondoesnotexist

Nés dans un fond de mousse

À l’origine, les GANs ont été conçus pour doter l’intelligence artificielle de ce dont elle était dépourvue jusqu’alors : une forme de créativité. Pour comprendre comment une telle chose a été rendue possible, et comment cela fonctionne, il faut remonter à 2014. À l’époque, le deep learning a déjà poussé relativement loin les capacités “apprenantes” des algorithmes, mais ceux-ci demeurent des suites de règles formelles, opérant des calculs pour atteindre un objectif donné. Il s’agit par exemple d’entraîner un ordinateur à jouer – et gagner – aux échecs. Toutefois, ces algorithmes, organisés en réseaux de neurones artificiels “coopérants”, ne “créent” pas à proprement parler. Ils observent, comparent, reproduisent éventuellement. Ils se révèlent plus pratiques pour établir des stratégies visant à battre un champion du monde d’échecs que pour apprendre à une voiture autonome que ce qui se trouve au milieu de la route est un tronc d’arbre, et non un dos d’âne. Un certain Ian J. Goodfellow, doctorant à l’Université de Montréal, va changer cet état de fait.

Diplômé de l’Université de Stanford en Computational Science, Goodfellow est connu, en cet été 2014, pour être un garçon très brillant. Il revient d’une année de stage chez Google, où il a contribué à créer un réseau de neurones capable de lire les numéros d’adresses à partir d’images de Street View. Un soir, attablé dans un bar avec quelques-uns de ses étudiants, Goodfellow disserte sur son sujet favori : les machines de Boltzmann restreintes, un type de réseau de neurones artificiels qui “échangent” au moyen de deux processeurs tournant en même temps. Goodfellow, qui a déjà bu quelques bières et se sent soudainement pousser des ailes, émet alors l’idée de mettre en compétition deux neurones distincts.”Je me suis aperçu que lorsque vous affrontez un adversaire très fort, vous avez tendance à abandonner quelque chose.” En effet, la résistance de cet adversaire nous oblige à trouver une parade, à “cibler ce qui n’a pas fonctionné et à le réparer”, détaillait-il dans une interview donnée au MIT en avril dernier.

Obtenir une meilleure généralisation
des aptitudes est un des défis
de la technologie aujourd’hui.
Goodfellow

Ce soir-là, Goodfellow décrit à ses étudiants le concept tel qu’il l’envisage, une sorte de jeu dans lequel deux neurones se testent mutuellement. L’un se nomme le générateur, l’autre, le discriminateur. Le générateur joue le rôle du faussaire : il est chargé de modeler des images que le discriminateur va juger vraisemblables ou non. Au début du processus, le générateur est alimenté par du “bruit”, soit un amas de pixels à la forme aléatoire, une sorte de glaise à partir de laquelle le générateur va peu à peu sculpter le résultat. Pour déterminer si ces images sont vraisemblables ou non, le discriminateur consulte de son côté une vaste base de données, et compare ce que lui envoie le générateur avec les images qui s’y trouvent. Jusqu’à ce que le générateur parvienne à “tromper” le discriminateur, tous deux s’entraînent au fur et à mesure des échanges : l’un à générer des images de plus en plus précises, l’autre à déterminer la vraisemblance de ces images – sans pour autant que celles-ci soient identiques. Une heure plus tard, de retour dans sa chambre, son dispositif est implémenté, les GANs sont nés. À sa grande surprise, l’adversité entre deux neurones artificiels fonctionne, et si le résultat est terriblement laid, le modèle est bel et bien viable.

Le tableau qui valait un demi-million

La renommée des GANs est toutefois loin d’être acquise et ne connaîtra un retentissement mondial que des années plus tard, quand trois amis d’enfance parisiens, inconnus de la Silicon Valley, décident de s’emparer du sujet. Ils ont des profils très différents : Hugo Caselles-Dupré termine un doctorat en intelligence artificielle, Pierre Fautrel est spécialisé en marketing et Gauthier Vernier, en économie. Ils vivent dans le même appartement, se passionnent pour les algorithmes et le deep learning, échangent leurs points de vue, débattent, rêvent. “Nous sommes tombés sur les GANs début 2017, raconte Gauthier Vernier. C’était assez connu dans le monde de la recherche, mais pas du grand public. On s’est dit qu’il fallait absolument que le monde soit au courant de leur existence. Et pour y parvenir, le meilleur moyen était de créer une œuvre d’art via ces algorithmes.”

Les trois amis fondent un collectif, et, sous le nom d’Obvious Art, conçoivent des tableaux en se servant de la technologie GAN. À la différence près qu’en lieu et place des photos de visages humains, leur base de données – celle sur laquelle se fonde le jugement du discriminateur – compile des milliers de peintures du XVIIIe siècle. Le collectif génère une série de tableaux “imaginés” par des algorithmes. Baptisée “La famille De Belamy”, traduction en anglais du nom de l’inventeur des GANs Goodfellow, la série est ensuite mise en vente sur le site superrare.co, un réseau social dédié aux oeuvres numériques. Les toiles, imparfaites, mais vraisemblables, sont signées de la formule algorithmique qui a généré les peintures. La chance fait le reste : “Christie’s (leader du marché de la vente aux enchères, NDLR) nous a contactés directement et nous ont dit qu’ils souhaitaient mettre un de nos tableaux aux enchères.” Estimé à environ 10 000 dollars, le “portrait d’Edmond Bellamy” est vendu pour près d’un demi-million de dollars.

La face cachée de l’IA

La belle histoire des GANs comporte cependant une facette plus sombre. Une sorte de grenade que Goodfellow lui-même a prudemment désamorcée quand il s’est entretenu avec le MIT. Cette grenade, ce sont les types de données sur lesquelles s’appuient nécessairement les algorithmes des intelligences artificielles pour progresser. Un problème qui ne concernerait pas les GANs, lesquels ont techniquement besoin de bases de données moins fournies pour parvenir à leurs fins. Explication : pour tirer les portraits de la famille De Belamy, Obvious Art a entraîné ses algorithmes sur base de 15 000 tableaux (ce qui est peu au regard d’une IA). Mais ce qui fonctionne pour une IA créative qui peint des tableaux “à la manière de” ne fonctionne pas nécessairement avec une IA qui va tenter de produire un service plus précis, comme un assistant vocal : Alexa d’Amazone ou Siri chez Apple.

À ce propos, la marque à la pomme a été contrainte d’admettre qu’elle écoutait des bouts de conversations entre certain·es utilisateurices d’iPhone. Apple a certifié que ces écoutes aidaient Siri à “mieux comprendre les requêtes et à améliorer sa reconnaissance vocale”. En somme, les algorithmes ont désormais besoin d’analyser nos interactions avec nos smartphones pour progresser. Soit exactement ce que font les GANs, comme le déclarait Goodfellow au MIT : “Les algorithmes peuvent réduire le besoin en nombre de données, mais ils ont aussi besoin de types d’expériences : en tant qu’humain·es nous n’apprenons pas à jouer au ping-pong en perdant deux millions de points. Obtenir une meilleure généralisation des aptitudes est un des défis de la technologie aujourd’hui.”

Qu’a voulu dire Goodfellow par là ? Globalement, que les algorithmes ont désormais besoin d’analyser ce que nous disons quand nous interagissons avec eux ! Cela tombe bien : il est, depuis mars 2019, directeur des “projets spéciaux” en intelligence artificielle chez… Apple.

Appel à projet

Une histoire, des projets ou une idée à partager ?

Proposez votre contenu sur kingkong.