1
Article 4 minutes de lecture

Sora, l’IA qui suscite peur et émerveillement

Auteurice de l’article :

François Genette

Accro à l’actu, fan de la culture geek, aficionado de tech digitale et gamer acharné, François Genette est passionné par tout ce qui touche au numérique. Journaliste pendant près de 15 ans dans les grands médias nationaux et locaux, il utilise aujourd’hui sa plume pour partager ses découvertes venant des univers qu’il affectionne.

en savoir plus

Le 15 février dernier, OpenAI, la firme mondialement connue pour son intelligence artificielle ChatGPT, a lancé son nouveau bébé nommé Sora. Ou plutôt, elle l’a “teasé”. Car ce nouveau générateur de vidéo au rendu époustouflant n’est encore qu’en phase de test auprès d’un petit nombre d’utilisateurices. Ce qui ne l’empêche pas de faire trembler une nouvelle fois le secteur de la tech digitale.

“Plusieurs mammouths laineux géants s’approchent en traversant une prairie enneigée, leur longue fourrure laineuse ondule légèrement dans le vent pendant qu’ils marchent, des arbres couverts de neige et des montagnes enneigées spectaculaires au loin…” Voici une partie du “prompt” (la commande textuelle à destination de l’intelligence artificielle) utilisée par OpenAI lors de l’un de ses premiers exemples de la puissance de Sora. Et voici le résultat… 

Cet exemple est loin d’être le seul. En ce 15 février 2024, ce sont des dizaines de vidéos générées par la nouvelle intelligence artificielle d’OpenAI qui sont diffusées sur les réseaux sociaux. Celles-ci ont deux points communs : un réalisme au niveau de l’image incroyablement saisissant et une qualité technique en termes de “prise de vue” qui n’a rien à envier aux réalisateurs et cadreurs les plus chevronnés.

Un bond technologique inattendu

Mais le plus surprenant avec Sora, ce sont ses capacités, bien plus puissantes qu’attendues. Après le raz-de-marée ChatGPT, tout le secteur anticipait une certaine stagnation de plusieurs années avant une nouvelle avancée majeure dans le domaine de l’IA. Mais la réalité a pris tout le monde de court et personne, même les expert·es dans le domaine, ne pensait qu’une intelligence artificielle serait capable de produire des vidéos d’une telle qualité en 2024.

Alors, comment expliquer une progression fulgurante ? Pour beaucoup, c’est la compétition féroce entre OpenAI et ses concurrents dans le secteur qui a motivé la firme californienne à passer très rapidement à la vitesse supérieure. Google, Meta ou encore Elon Musk ne sont que quelques exemples d’acteurices incontournables de la tech digitale qui se sont lancé·es dans la course à l’IA. Une lutte qui stimule la croissance exponentielle des essais en la matière et conduit à l’émergence de nouveaux outils révolutionnaires, dont Sora fait partie.

Cette concurrence est aussi certainement la raison pour laquelle OpenAI a décidé de “teaser” Sora si tôt, alors que l’outil n’est pas prêt. Pour preuve, le fait que Sora ne soit accessible qu’à une toute petite minorité d’utilisateurices. Et puis il y a les déclarations du patron d’Open AI, Sam Altman, qui avoue lui-même que le modèle actuel de la plateforme présente encore quelques défauts à résoudre avant son lancement.

Comment fonctionne Sora ?

Pour comprendre le fonctionnement de Sora, rappelons d’abord ses capacités. La nouvelle IA d’OpenAI peut produire des vidéos de haute qualité d’une durée maximale d’une minute à partir d’une commande textuelle. Mais ce n’est pas tout, elle peut également transformer une image fixe existante en une séquence animée, en accordant une attention particulière aux moindres détails. De plus, elle peut étendre une vidéo existante ou combler ses lacunes en ajoutant des images manquantes générées par ses soins.

Pour parvenir à ces résultats, Sora utilise une architecture de transformateurs similaire aux derniers modèles GPT. Cette architecture repose sur des centaines de millions de connexions opérées par des algorithmes puissants. Ces algorithmes organisent les textes reçus en unités infiniment plus simples à analyser, qui sont ensuite associées à des informations descriptives et visuelles.

Sora exploite ensuite ces données pour reconstituer les vidéos en puisant dans une immense base de données à laquelle elle a accès. Le processus passe par plusieurs étapes avant la génération finale afin d’améliorer progressivement la qualité des échantillons jusqu’à obtenir une image nette en haute résolution.

Cette approche permet à Sora non seulement de produire des vidéos incroyablement réalistes, mais aussi de s’entraîner et de s’améliorer à chaque exécution.

Les limites actuelles du modèle Sora

Aussi impressionnante soit-elle, Sora fait face à des limites. Et celles-ci sont assez similaires à celles qu’on retrouve dans la plupart des générateurs d’images. Une expression les résume à merveille : “Le diable se trouve dans les détails”. En effet, si les images sont globalement très réalistes, l’intelligence artificielle a souvent bien du mal à coller avec la réalité. On retrouve donc un certain nombre d’erreurs, voire d’incohérences dans certains plans, comme un chat avec une patte en trop, un visage où le nez ne se trouve pas exactement là où il devrait être, ou encore des bâtiments dont l’architecture semble plus qu’irréaliste.

Un autre problème est la difficulté de Sora avec la physique de notre monde. L’intelligence artificielle ne semble pas encore avoir acquis la capacité de gérer de manière réaliste les interactions complexes entre une action d’un personnage et son environnement. Par exemple, une vidéo montre un homme soufflant sur des bougies sans que celles-ci ne s’éteignent.

Enfin, il y a encore et toujours le problème de la capacité d’itération de Sora. Là encore, comme Midjourney, Dal-E et les autres générateurs d’images, Sora n’est pas capable de reproduire exactement des personnages ou des éléments graphiques qu’elle génère d’une fois à l’autre. En effet, en se basant sur une quantité astronomique de données pour chacune de ces productions, elle crée des “œuvres” issues de combinaisons “uniques” qui lui sont impossibles à reproduire. Du moins, jusqu’à aujourd’hui…

Sora, un danger ou une aubaine ?

L’avènement de Sora soulève, quoi qu’il en soit, une série de préoccupations légitimes quant à ses répercussions sur la société. En effet, aux côtés d’autres technologies similaires, cette nouvelle intelligence artificielle représente un défi majeur en termes de sécurité et d’éthique. On pense évidemment à la propagation de la désinformation, déjà préoccupante aujourd’hui, et qui risque de s’intensifier considérablement avec l’arrivée d’un outil aussi puissant et facilement accessible.

Sora pourrait également rendre obsolètes un grand nombre de métiers du secteur audiovisuel, rendant ces professionnel·les vulnérables au chômage et mettant en péril l’existence même de nombreux·ses artistes. En effet, une grande accessibilité et une forte automatisation pourraient signifier la disparition de la nécessité de talent et d’expertise, amenant peu à peu un remplacement de l’art par la génération de contenu sur la base de simples lignes de texte.

D’un autre côté, certain·es voient en Sora une opportunité de révolutionner la création de contenu, en promettant des gains de temps et de créativité sans précédent. Pour ces optimistes, Sora se cantonnera au rôle d’assistant surpuissant, facilitant la production de séquences d’illustration et d’images contextuelles pertinentes, et permettant ainsi de rompre avec l’utilisation de vidéos de stocks génériques largement utilisées jusqu’à présent.

Reste à voir ce que nous réserve la véritable sortie de l’outil, qui n’a pas encore trouvé de date définitive. Connaissant OpenAI, il n’est pas impossible que d’ici là, d’autres surprises d’envergure viennent encore s’ajouter à Sora et entraînent autant d’ébahissement que de craintes concernant le potentiel de ce nouvel outil.

Appel à projet

Une histoire, des projets ou une idée à partager ?

Proposez votre contenu sur kingkong.

Partager cet article sur

à découvrir aussi