Free AI web copilot to create summaries, insights and extended knowledge, download it at here

Abstract

r attentivement les données avec lesquelles vous interagissez sur Internet. Beaucoup d’entre elles sont synthétiques, et nous ne nous en rendons pas toujours compte.Nous entrons dans l’ère des données synthétiques, où les textes, les images, la musique et bien d’autres éléments sont générés de manière artificielle.<h2 id="05e8">La Ère des Données Synthétiques</h2>La Ère des Données Synthétiques est en train de s’installer, où les textes, les images, la musique, les livres et les vidéos sont générés par des machines, propulsant ainsi l’Ère de l’IA Générative.Cette révolution, comparable aux Lumières, à l’avènement de l’électricité, des ordinateurs et d’Internet, présente des défis significatifs.Elle apporte avec elle des enjeux importants qui nécessitent des approches prudentes, représentant une transformation d’envergure mondiale.Il est essentiel de rester vigilants pour que cette transition se fasse dans l’intérêt de l’humanité dans son ensemble.<h1 id="d002">Section 4 — ChatGPT and Foundation Models</h1><figure id="ab59"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*JeJuIry2zGNRTv1bRlCo4g.jpeg"><figcaption>Pinture impressionniste sur l’IA générative (crédits MS Image Creator).</figcaption></figure>Les applications d’IA générative sont propulsées par ce que l’on appelle les Modèles de Fondation, un terme récemment introduit par le HAI (Human-Centered Artificial Intelligence)⁠2 de l’Université Stanford, rapidement adopté par la communauté de l’IA.Ils sont appelés “modèles” car ils tentent de simuler ou de modéliser des aspects du monde réel en se basant sur de vastes ensembles de données utilisés lors de leur entraînement.Contrairement à l’IA classique, qui nécessitait des données étiquetées et des milliers d’heures de travail manuel pour identifier et étiqueter des images, du texte ou d’autres types de données, les Modèles de Fondation sont entraînés sur des ensembles de données non étiquetés, ce qui leur permet de s’adapter à diverses tâches avec des ajustements minimes.Ces Modèles de Fondation établissent un nouveau paradigme de réussite pour la construction de systèmes d’IA. Après un entraînement approfondi, ces modèles sont adaptables pour générer d’autres modèles spécialisés et de multiples applications.Une fois entraînés, ces modèles peuvent être accessibles via des API, permettant aux développeurs de créer de nouvelles applications.<figure id="d530"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*8tbr1H1tJTNzakBrY57kUw.jpeg"><figcaption>Capture d’écran de ChatGPT posant la question sur ce qu’est un Modèle de Fondation.</figcaption></figure>Nous assistons aux premiers éclats du potentiel de ces modèles dans le monde des langages et des images, tels que ChatGPT, Gemini et DALL-E, qui démontrent ce dont cette technologie est capable.La caractéristique marquante de ces modèles est leur capacité à appliquer les connaissances acquises lors de tâches précédentes pour accomplir de nouvelles tâches. Cet apprentissage auto-supervisé et le transfert de connaissances suggèrent une intelligence proche de celle des humains.Les opportunités générées par ces modèles couvrent diverses industries, notamment la santé, l’éducation, la traduction, les réseaux sociaux et le droit, rendant notre société plus productive.Les Modèles de Fondation, exemplifiés par le GPT-3 d’OpenAI et son successeur, le GPT-4, avec des milliards de paramètres, peuvent présenter des comportements impressionnants, mais aussi des défaillances inattendues et des biais encore mal compris.OpenAI met en garde contre d’éventuelles hallucinations, soulignant l’importance de prendre soin d’évaluer les risques associés à ces technologies.Malgré l’extension des capacités humaines, ces modèles posent également des défis éthiques et peuvent renforcer les biais, sapant la confiance dans les informations. Il est donc essentiel d’adopter une approche prudente et réfléchie face à ces innovations.<h1 id="4f0d">Section 5 — ChatGPT et les Modèles de LLM (Large Language Models)</h1><figure id="f812"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*RWHR9cem4nYO65S6x3o2_A.jpeg"><figcaption>Peinture impressionniste sur les Grands Modèles de Langage dans les Applications d’IA (crédits MS Image Creator).</figcaption></figure>Les Large Language Models (LLMs) sont reconnus comme l’une des catégories prééminentes parmi les Modèles de Fondation.Les LLMs sont des modèles d’apprentissage automatique qui apprennent à partir d’un grand nombre de documents de données pour effectuer la génération de langage à des fins générales.Ils sont nés de la convergence de la linguistique et de l’informatique dans ce qu’on appelle le Traitement du Langage Naturel (PNL).Le modèle de langage est un modèle probabiliste de PNL utilisé pour effectuer des tâches humaines telles que la traduction, la correction grammaticale et la génération de texte.Ces modèles jouent un rôle essentiel dans la résolution des défis linguistiques en utilisant des algorithmes de Traitement du Langage Naturel (NLP) et la technique de formation innovante appelée “Transformers”.Les algorithmes “transformers” fonctionnent de manière non supervisée sur un vaste corpus de texte en langage naturel pendant la phase de pré-entraînement, avant d’être ajustés par l’intervention humaine.Le ChatGPT adopte cette technique, dans laquelle il attribue du sens à de longues séquences de texte pour comprendre la relation entre différents mots ou composants sémantiques.Ce processus implique la détermination de la probabilité d’occurrence prochaine entre eux, configurant un jeu statistique d’anticipation basé sur l’apprentissage de mots et de phrases préalablement assimilés.La phase de pré-entraînement représente le stade où le système assimile, par lui-même, les relations entre les mots d’un texte.Les LLMs jouent un rôle crucial dans le développement de systèmes capables de comprendre et de générer des connaissances à partir de ce qui est communiqué oralement ou par écrit.Un exemple pratique du fonctionnement de ces modèles se trouve dans les remplissages automatiques de formulaires et de messages sur téléphone portable, où le système suggère des alternatives de mots pertinentes lors de la saisie.Cela se traduit par l’anticipation du mot suivant, voire des deux ou trois mots suivants. Cette capacité d’organiser statistiquement combien de mots peuvent être affichés à l’utilisateur dépend de la largeur de contexte des LLMs.Par exemple, ChatGPT 3 atteint jusqu’à 2048 jetons, ce qui équivaudrait en moyenne à 300 mots. Cependant, les modèles actuels de LLMs ont commencé à avoir des fenêtres de contexte beaucoup plus larges, telles que 16K, 32K, 64K, 128K, augmentant ainsi le nombre de jetons pouvant être analysés et traités.À chaque lancement de produit, ces quantités sont augmentées. Par exemple, bien que Gemini de Google gère une fenêtre de contexte de 128K jetons, il a déjà été testé pour 1 million de jetons.La fenêtre de contexte de 128 000 jetons dans GPT-4 Turbo peut être comparée à environ 300 pages d’informations.Cela signifie que le modèle est capable de traiter, d’analyser, de comprendre et de répondre à des instructions équivalentes à un livre de 300 pages dans une seule fenêtre de contexte.Cette capacité étendue permet à GPT-4 Turbo de maintenir une vue plus large du contexte, ce qui se traduit par des réponses plus cohérentes et pertinentes.En résumé, la capacité de ces systèmes à anticiper les mots ou à prédire statistiquement les réponses correctes augmente à mesure qu’ils démontrent une plus grande sophistication, constituant un élément crucial dans l’évolution des LLMs.<h2 id="5ef0">1 — Modèles entraînés dans diverses activités humaines</h2>Il est frappant de constater que ces modèles peuvent s’adapter à tous types d’activités humaines lorsqu’ils sont correctement entraînés. Par exemple :<ul><li>Des systèmes entraînés avec les œuvres d’artistes célèbres peuvent générer de nouvelles œuvres d’art suivant le style de ces artistes.</li><li>Des systèmes entraînés avec des manuels de mathématiques ou de chimie peuvent produire des résultats avec de nouvelles idées dans ces domaines.</li><li>Des systèmes entraînés avec des cas juridiques peuvent apprendre et collaborer au développement et à la résolution de cas devant les juges et les tribunaux.</li></ul>On peut percevoir que ces systèmes vont en

Options

vahir le monde dans les années à venir, et nous interagirons avec plusieurs d’entre eux dans notre vie éducative, personnelle et professionnelle.Pour cette raison, nous assistons à une course pour dominer et améliorer cette technologie, qui pourrait être aussi importante qu’Internet, et qui pourrait entraîner des changements profonds dans la société, tout comme l’ont été les révolutions agricole, industrielle et technologique.<figure id="278f"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*4lyd9QkxjwJyb7H6mpCnGQ.jpeg"><figcaption>Capture d’écran de ChatGPT posant la question sur ce qu’est un LLM en IA.</figcaption></figure><h2 id="c6d2">2 — Algorithme de LLM</h2>LLM est un algorithme d’apprentissage profond qui utilise des réseaux neuronaux et peut reconnaître, résumer, traduire, prédire et générer des textes et d’autres contenus en fonction des connaissances acquises lors des entraînements réalisés avec de grandes quantités de données.Ces modèles textuels ne se limitent pas seulement à l’enseignement ou à la traduction de langages humains.Ils peuvent répondre à des questions sous forme de texte, via des chatbots, pour une large gamme d’applications, telles que :<ul><li>Comprendre les protéines, les molécules, l’ADN et l’ARN.</li><li>Écrire du code informatique.</li><li>Construire des paires de texte et d’images pour des générateurs d’images.</li><li>Améliorer les moteurs de recherche.</li><li>Composer de la musique, écrire des poèmes, des histoires, des livres.</li></ul>Ces modèles ont démontré d’excellentes capacités dans des domaines de l’IA tels que le raisonnement, le bon sens et la résolution de problèmes.Les modèles LLM les plus connus sont :<ul><li>GPT (Generative Pre-Trained Transformer) de OpenAI, utilisé dans ChatGPT.</li><li>CODEX de OpenAI, pour la génération de codes informatiques.</li><li>Sydney de Microsoft, développé à partir de ChatGPT pour Bing.</li><li>Gemini de Google.</li><li>Megatron de Nvidia.</li><li>Llama et RoBERTa (Robustly Optimized BERT Approach) de Facebook.</li><li>BLOOM (BigScience Large Open-science Open-Access Multilingual Language Model) de la Communauté européenne, développé par un consortium de chercheurs, de gouvernements et d’entreprises européennes.</li><li>Jurassic de la société israélienne AI21.</li></ul>En plus des plus connus, de nombreuses entreprises misent sur le développement de LLM pour leur propre usage ou pour les commercialiser sur le marché, telles que Baidu, DeepMind, Meta, AI21 Labs, LG AI Research, Anthropic, Huawei, entre autres.La course consiste à développer des LLM pour son propre business ou pour les commercialiser, en donnant accès aux systèmes entraînés via des APIs logicielles et en facturant l’accès et le contenu.Tout le monde veut garantir sa place sur le marché de l’IA Générative, car ils savent que cette révolution va modifier significativement les produits, les services et toute notre société.<figure id="9cc9"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*eq2ppn2ldAJXT6CkABGZYQ.jpeg"><figcaption>Capture d’écran posant la question à ChatGPT sur les principales LLMs de l’IA.</figcaption></figure><h1 id="780c">Section 6 — Investissements pour le développement de l’IA Générative</h1>Le monde de l’IA Générative est réservé aux acteurs les mieux financés.Microsoft investit 10 milliards dans OpenAI, en plus des investissements déjà réalisés, tandis que Google, Meta, Amazon, Apple injectent d’énormes investissements pour ne pas perdre leur part de marché.Comme personne ne peut tout faire seul, dans ce nouveau marché, nous avons presque toujours l’union entre :<ul><li>Ceux qui ont la volonté et le talent. Dans ce cas, les startups ou les entreprises agiles de technologie (OpenAI, DeepMind, Stable Diffusion, etc.).</li><li>Ceux qui détiennent les contenus. Dans ce cas, les moteurs de recherche, encyclopédies, bibliothèques, libraires, etc. (Google, Microsoft Bing, Wikipedia, Meta, etc.).</li><li>Ceux qui possèdent les ressources d’infrastructure technologique telles que les services cloud (AWS, Google, Azure Microsoft).</li><li>Ceux qui ont le matériel, dans ce cas, les fabricants de GPU (Nvidia, Intel, AMD).</li></ul>Google est considéré comme l’éléphant dans la pièce, le seul qui a tout en interne et peut donc se développer sans dépendre de tiers, mais il hésite à utiliser des données ouvertes, de peur de tirer une balle dans le pied en popularisant une technologie qui pourrait directement affecter son activité la plus précieuse, la vente de publicité sur le moteur de recherche.D’autre part, les petites et moyennes entreprises se précipitent pour trouver des solutions en utilisant les API de ces grands systèmes, cherchant à réduire l’accès et le coût des jetons, tout en utilisant des LLM en code source ouvert, qui n’ont pas de coût de formation.En tenant compte des importantes ressources informatiques et de l’utilisation de l’énergie, une citation intéressante est que l’entraînement d’un grand modèle de LLM a la même empreinte carbone [1] que conduire cinq voitures tout au long de leur vie.Le GPT-3.5 a été entraîné en utilisant 10 000 cartes GPU de Nvidia, au coût de 10 000 dollars par carte. On dit que le GPT-4 a utilisé 30 000 de ces cartes GPU. On ne connaît pas le coût de l’énergie utilisée ni les coûts généraux de l’infrastructure technologique relevant de la responsabilité de Microsoft dans le partenariat avec OpenAI<h2 id="644d">1 — Les APIs sont la solution pour ne pas perdre de temps</h2>Les APIs (Interfaces de Programmation d’Applications) permettent l’intégration entre différents systèmes, plates-formes et dispositifs grâce à l’appel de fonctions et de routines.OpenAI a pris les devants en proposant des APIs pour l’accès à ses systèmes, ainsi que des modèles économiques pour les particuliers et les entreprises.Le modèle d’utilisation des APIs devrait se répandre dans d’autres environnements, tels que Gemini de Google, Microsoft, Nvidia, BLOOM, entre autres LLMs qui ont émergé récemment.Les coûts majeurs, tels que ceux de la formation du LLM et du développement des algorithmes, ont déjà été établis. L’accès à l’application peut être payé en quelques centimes de dollars pour l’accès et le volume de données utilisé au coût des tokens.Un excellent moyen de compenser les coûts initiaux des LLMs et de créer de nouvelles applications pour les commercialiser sur le marché.La créativité sera la limite dans ce nouveau monde de l’IA Générative, avec les offres croissantes des LLMs et leurs vastes empires de volumes de données.<h1 id="87bc">Section 7 — Le mot de la fin</h1><figure id="a8dc"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*AtU3GPvOZKWfmpHLfvN1_A.jpeg"><figcaption>Peinture impressionniste sur les Grands Modèles de Langage dans les Applications d’IA (crédits MS Image Creator).</figcaption></figure>Les technologies qui émergent au bon endroit et au bon moment finissent par devenir uniques et exponentielles, marquant une période de changements dans l’humanité.Les micro-ordinateurs, Internet, les navigateurs Web, l’iPhone, le cloud computing, entre autres, ont provoqué des changements de comportement dans la société, ayant un impact sur le marché.L’impact de l’IA Générative ne sera ressenti que si elle est popularisée, permettant l’accès au plus grand nombre possible de personnes.Avec ChatGPT, l’IA tend à devenir populaire, offrant un accès à des milliards de personnes dans divers secteurs, que ce soit dans la vie personnelle ou professionnelle.Les modèles de fondation, avec leurs LLMs, seront le vecteur de cette popularisation, adaptant les connaissances par utilisateur, par questions et demandes.Un oracle qui détient toute la connaissance du monde. Un maître prêt à nous servir, produisant des connaissances pour résoudre des problèmes.Peu importe votre âge, vous utiliserez cette technologie que nous ne connaissons pas encore intégralement, et nous ne savons pas encore évaluer ses risques, son impact et ses avantages.En tant que société, nous devrons découvrir et trouver les meilleures alternatives pour son utilisation et ses applications, en croyant que l’IA Générative sera une technologie qui apportera des avantages à toute l’humanité.Auteur : José Antonio Ribeiro Neto (Zezinho).1 Videos Sora — <a href="https://openai.com/sora">https://openai.com/sora</a>2 HAI — <a href="https://crfm.stanford.edu/">https://crfm.stanford.edu</a></article></body>

FRANCE — ARTICLES SUR CHATGPT ET LES RACCOURCIS EN IA

ChatGPT et l’Art de la Conversation : Une Analyse du Potentiel de l’Intelligence Artificielle Générative

EXPLORATION DE L’INTELLIGENCE ARTIFICIELLE EN PETITES DOSES DE CONNAISSANCE

Peinture impressionniste sur l’IA générative (crédits à MS Image Creator).

Section 1 — Présentation

ChatGPT fait partie d’une branche de l’IA appelée IA Générative (Generative AI).

Ce sont des algorithmes utilisés pour générer du contenu textuel, audio, des images, des vidéos et des codes informatiques.

En utilisant des techniques d’apprentissage machine, d’apprentissage profond et de réseaux neuronaux, l’IA Générative crée du contenu sur la base de prévisions statistiques.

Elle est appelée générative car elle crée quelque chose qui n’existait pas auparavant, à partir de commandes en langage naturel telles que :

Élaborez une image d’un chat et d’un lion assis côte à côte.
Rédigez un essai sur l’environnement.
Générez un code informatique pour une routine commerciale.

Image générée par une IA d’un chat et d’un lion assis côte à côte (crédits à MS Image Creator).

1 — Modèles d’IA Générative

Il est courant de se référer aux environnements d’IA Générative comme des “Modèles d’IA”, car ils ont été entraînés avec des données pour effectuer des tâches telles que la génération de texte, d’audio, d’images et de codes informatiques.

Initialement, les modèles d’IA étaient textuels, recevant des questions sous forme de texte et y répondant de la même manière, et étaient donc appelés “Unimodaux”.

ChatGPT 4.0 et le Gemini sont maintenant multimodaux et peuvent traiter des entrées de texte, d’image et de code, élargissant leur capacité à générer du contenu.

Ces modèles sont utilisés dans des secteurs spécifiques tels que la santé, l’éducation, le design, le divertissement, la biologie, la physique, les mathématiques, la programmation informatique, etc.

Ils peuvent aider à créer des images médicales synthétiques, générer du contenu éducatif personnalisé, traduire dans des dizaines de langues et collaborer à la création de designs innovants.

Les professionnels et les entreprises intègrent ces modèles dans une variété de produits et services, popularisant ainsi leur utilisation et élargissant le spectre d’applications.

Capture d’écran posant la question à ChatGPT sur ce qu’est l’IA Générative.

Section 2 — L’IA Générative et la Production de Contenu

L’IA Générative développe des réponses basées sur des statistiques et des probabilités acquises à partir d’un vaste corpus de données sur lequel elle a été formée.

Cette forme avancée d’IA a la capacité de produire :

Des textes tels que des articles, des poèmes, des actualités, des scénarios, la révision de code, des présentations, des traductions, entre autres.
Des images telles que des paysages inédits, des visages de personnes, des peintures, des avatars, des environnements virtuels, entre autres.
Du son, englobant des musiques, des effets sonores, des doublages, et même la conversion de vidéos ou d’audio en texte.
Des vidéos synthétiques générées à partir de texte ou d’images prédéfinies.
Des codes informatiques dans les langages de programmation les plus populaires, tels que Python, R, C, entre autres.

Le fascinant de ce processus réside dans le fait que les produits de l’IA Générative offrent des réponses aux questions posées par l’utilisateur via une invitation, une simple ligne blanche destinée à recevoir des commandes en langage naturel.

Capture d’écran de DALL-E avec l’invite de commande pour demander la génération d’images synthétiques.

Cette approche permet aux utilisateurs, qu’ils soient novices ou experts, de participer à un même niveau de communication, basé sur des questions et des réponses avec ces systèmes.

La ligne de commande est devenue célèbre, et la nouveauté pour ceux qui veulent apprendre à converser avec l’IA Générative serait d’en apprendre davantage sur “l’ingénierie du prompt” (prompt engineering), la nouvelle science de savoir parler aux machines.

Je peux demander à ChatGPT d’écrire une dissertation sur l’environnement, à DALL-E de générer une peinture impressionniste sur les préjugés dans notre société, ou à Sora de produire une vidéo, à partir de commandes de texte basées sur des questions simples, telles que :

ChatGPT, pourrais-tu écrire une dissertation sur l’environnement ?
DALL-E, pourrais-tu créer une peinture impressionniste sur l’environnement ?
Sora, pourrais-tu générer une vidéo d’un mastodonte marchant dans la neige ?

La production de contenu est devenue quelque chose de simple et peut être utilisée par n’importe qui ayant accès à un ordinateur, un smartphone ou des dispositifs similaires. Par exemple, la commande de prompt :

“Une femme élégante marche dans une rue de Tokyo pleine d’enseignes au néon lumineux. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires, tenant un sac noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec confiance et décontraction. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons circulent dans la zone.”

Cette commande a généré une vidéo fascinante dans le nouveau système de génération de vidéos synthétiques “Sora” d’OpenAI.

Vidéo générée avec Sora (crédits OpenAI⁠1).

Section 3 — ChatGPT et les Contenus Synthétiques

Peinture impressionniste sur l’IA Générative (crédits MS Image Creator).

Le principal produit généré par l’IA générative est appelé “Contenu Synthétique”, créé par des machines et non par des humains. Ces créations englobent diverses formes telles que le texte, l’image, l’audio, la vidéo et le code.

Une application d’IA générative peut avoir été entraînée à lire des milliers d’articles sur la politique, afin de pouvoir répondre à de nouvelles questions sur le sujet.

Une autre application peut produire des peintures impressionnistes, ayant été formée avec des centaines de tableaux de peintres impressionnistes, en associant des paires de données texte et image.

La base de ce phénomène réside dans l’entraînement approfondi effectué par l’IA générative, absorbant de grands volumes de données pour que l’IA puisse produire des réponses intelligentes à partir de questions simples basées sur des instructions.

Diverses applications illustrent la polyvalence de l’IA générative :

ChatGPT: produit des textes, des images et du code informatique.
MidJourney: crée de belles illustrations.
DALL-E: peint des tableaux impressionnants.
MusicLM: compose des jingles.
Sora: génère des vidéos synthétiques.

Le résultat final de la génération de contenu synthétique est si bon que la plupart du temps, nous ne pouvons pas distinguer s’ils ont été produits par des machines ou des humains.

Outre l’innovation artistique, la diffusion de ces contenus synthétiques a un impact direct sur la société. Les questions éthiques, les droits d’auteur, la création d’art synthétique et la production de connaissances sont des domaines en mutation en raison de cette technologie.

Une tendance émergente est l’utilisation de données synthétiques pour la formation des systèmes d’IA. Cette pratique, motivée par des contraintes liées au plagiat et aux droits d’auteur, ainsi que par le coût des données réelles, trouve déjà des applications dans des secteurs spécialisés tels que la santé, les finances et les jeux.

Je vous invite à observer attentivement les données avec lesquelles vous interagissez sur Internet. Beaucoup d’entre elles sont synthétiques, et nous ne nous en rendons pas toujours compte.

Nous entrons dans l’ère des données synthétiques, où les textes, les images, la musique et bien d’autres éléments sont générés de manière artificielle.

La Ère des Données Synthétiques

La Ère des Données Synthétiques est en train de s’installer, où les textes, les images, la musique, les livres et les vidéos sont générés par des machines, propulsant ainsi l’Ère de l’IA Générative.

Cette révolution, comparable aux Lumières, à l’avènement de l’électricité, des ordinateurs et d’Internet, présente des défis significatifs.

Elle apporte avec elle des enjeux importants qui nécessitent des approches prudentes, représentant une transformation d’envergure mondiale.

Il est essentiel de rester vigilants pour que cette transition se fasse dans l’intérêt de l’humanité dans son ensemble.

Section 4 — ChatGPT and Foundation Models

Pinture impressionniste sur l’IA générative (crédits MS Image Creator).

Les applications d’IA générative sont propulsées par ce que l’on appelle les Modèles de Fondation, un terme récemment introduit par le HAI (Human-Centered Artificial Intelligence)⁠2 de l’Université Stanford, rapidement adopté par la communauté de l’IA.

Ils sont appelés “modèles” car ils tentent de simuler ou de modéliser des aspects du monde réel en se basant sur de vastes ensembles de données utilisés lors de leur entraînement.

Contrairement à l’IA classique, qui nécessitait des données étiquetées et des milliers d’heures de travail manuel pour identifier et étiqueter des images, du texte ou d’autres types de données, les Modèles de Fondation sont entraînés sur des ensembles de données non étiquetés, ce qui leur permet de s’adapter à diverses tâches avec des ajustements minimes.

Ces Modèles de Fondation établissent un nouveau paradigme de réussite pour la construction de systèmes d’IA. Après un entraînement approfondi, ces modèles sont adaptables pour générer d’autres modèles spécialisés et de multiples applications.

Une fois entraînés, ces modèles peuvent être accessibles via des API, permettant aux développeurs de créer de nouvelles applications.

Capture d’écran de ChatGPT posant la question sur ce qu’est un Modèle de Fondation.

Nous assistons aux premiers éclats du potentiel de ces modèles dans le monde des langages et des images, tels que ChatGPT, Gemini et DALL-E, qui démontrent ce dont cette technologie est capable.

La caractéristique marquante de ces modèles est leur capacité à appliquer les connaissances acquises lors de tâches précédentes pour accomplir de nouvelles tâches. Cet apprentissage auto-supervisé et le transfert de connaissances suggèrent une intelligence proche de celle des humains.

Les opportunités générées par ces modèles couvrent diverses industries, notamment la santé, l’éducation, la traduction, les réseaux sociaux et le droit, rendant notre société plus productive.

Les Modèles de Fondation, exemplifiés par le GPT-3 d’OpenAI et son successeur, le GPT-4, avec des milliards de paramètres, peuvent présenter des comportements impressionnants, mais aussi des défaillances inattendues et des biais encore mal compris.

OpenAI met en garde contre d’éventuelles hallucinations, soulignant l’importance de prendre soin d’évaluer les risques associés à ces technologies.

Malgré l’extension des capacités humaines, ces modèles posent également des défis éthiques et peuvent renforcer les biais, sapant la confiance dans les informations. Il est donc essentiel d’adopter une approche prudente et réfléchie face à ces innovations.

Section 5 — ChatGPT et les Modèles de LLM (Large Language Models)

Peinture impressionniste sur les Grands Modèles de Langage dans les Applications d’IA (crédits MS Image Creator).

Les Large Language Models (LLMs) sont reconnus comme l’une des catégories prééminentes parmi les Modèles de Fondation.

Les LLMs sont des modèles d’apprentissage automatique qui apprennent à partir d’un grand nombre de documents de données pour effectuer la génération de langage à des fins générales.

Ils sont nés de la convergence de la linguistique et de l’informatique dans ce qu’on appelle le Traitement du Langage Naturel (PNL).

Le modèle de langage est un modèle probabiliste de PNL utilisé pour effectuer des tâches humaines telles que la traduction, la correction grammaticale et la génération de texte.

Ces modèles jouent un rôle essentiel dans la résolution des défis linguistiques en utilisant des algorithmes de Traitement du Langage Naturel (NLP) et la technique de formation innovante appelée “Transformers”.

Les algorithmes “transformers” fonctionnent de manière non supervisée sur un vaste corpus de texte en langage naturel pendant la phase de pré-entraînement, avant d’être ajustés par l’intervention humaine.

Le ChatGPT adopte cette technique, dans laquelle il attribue du sens à de longues séquences de texte pour comprendre la relation entre différents mots ou composants sémantiques.

Ce processus implique la détermination de la probabilité d’occurrence prochaine entre eux, configurant un jeu statistique d’anticipation basé sur l’apprentissage de mots et de phrases préalablement assimilés.

La phase de pré-entraînement représente le stade où le système assimile, par lui-même, les relations entre les mots d’un texte.

Les LLMs jouent un rôle crucial dans le développement de systèmes capables de comprendre et de générer des connaissances à partir de ce qui est communiqué oralement ou par écrit.

Un exemple pratique du fonctionnement de ces modèles se trouve dans les remplissages automatiques de formulaires et de messages sur téléphone portable, où le système suggère des alternatives de mots pertinentes lors de la saisie.

Cela se traduit par l’anticipation du mot suivant, voire des deux ou trois mots suivants. Cette capacité d’organiser statistiquement combien de mots peuvent être affichés à l’utilisateur dépend de la largeur de contexte des LLMs.

Par exemple, ChatGPT 3 atteint jusqu’à 2048 jetons, ce qui équivaudrait en moyenne à 300 mots. Cependant, les modèles actuels de LLMs ont commencé à avoir des fenêtres de contexte beaucoup plus larges, telles que 16K, 32K, 64K, 128K, augmentant ainsi le nombre de jetons pouvant être analysés et traités.

À chaque lancement de produit, ces quantités sont augmentées. Par exemple, bien que Gemini de Google gère une fenêtre de contexte de 128K jetons, il a déjà été testé pour 1 million de jetons.

La fenêtre de contexte de 128 000 jetons dans GPT-4 Turbo peut être comparée à environ 300 pages d’informations.

Cela signifie que le modèle est capable de traiter, d’analyser, de comprendre et de répondre à des instructions équivalentes à un livre de 300 pages dans une seule fenêtre de contexte.

Cette capacité étendue permet à GPT-4 Turbo de maintenir une vue plus large du contexte, ce qui se traduit par des réponses plus cohérentes et pertinentes.

En résumé, la capacité de ces systèmes à anticiper les mots ou à prédire statistiquement les réponses correctes augmente à mesure qu’ils démontrent une plus grande sophistication, constituant un élément crucial dans l’évolution des LLMs.

1 — Modèles entraînés dans diverses activités humaines

Il est frappant de constater que ces modèles peuvent s’adapter à tous types d’activités humaines lorsqu’ils sont correctement entraînés. Par exemple :

Des systèmes entraînés avec les œuvres d’artistes célèbres peuvent générer de nouvelles œuvres d’art suivant le style de ces artistes.
Des systèmes entraînés avec des manuels de mathématiques ou de chimie peuvent produire des résultats avec de nouvelles idées dans ces domaines.
Des systèmes entraînés avec des cas juridiques peuvent apprendre et collaborer au développement et à la résolution de cas devant les juges et les tribunaux.

On peut percevoir que ces systèmes vont envahir le monde dans les années à venir, et nous interagirons avec plusieurs d’entre eux dans notre vie éducative, personnelle et professionnelle.

Pour cette raison, nous assistons à une course pour dominer et améliorer cette technologie, qui pourrait être aussi importante qu’Internet, et qui pourrait entraîner des changements profonds dans la société, tout comme l’ont été les révolutions agricole, industrielle et technologique.

Capture d’écran de ChatGPT posant la question sur ce qu’est un LLM en IA.

2 — Algorithme de LLM

LLM est un algorithme d’apprentissage profond qui utilise des réseaux neuronaux et peut reconnaître, résumer, traduire, prédire et générer des textes et d’autres contenus en fonction des connaissances acquises lors des entraînements réalisés avec de grandes quantités de données.

Ces modèles textuels ne se limitent pas seulement à l’enseignement ou à la traduction de langages humains.

Ils peuvent répondre à des questions sous forme de texte, via des chatbots, pour une large gamme d’applications, telles que :

Comprendre les protéines, les molécules, l’ADN et l’ARN.
Écrire du code informatique.
Construire des paires de texte et d’images pour des générateurs d’images.
Améliorer les moteurs de recherche.
Composer de la musique, écrire des poèmes, des histoires, des livres.

Ces modèles ont démontré d’excellentes capacités dans des domaines de l’IA tels que le raisonnement, le bon sens et la résolution de problèmes.

Les modèles LLM les plus connus sont :

GPT (Generative Pre-Trained Transformer) de OpenAI, utilisé dans ChatGPT.
CODEX de OpenAI, pour la génération de codes informatiques.
Sydney de Microsoft, développé à partir de ChatGPT pour Bing.
Gemini de Google.
Megatron de Nvidia.
Llama et RoBERTa (Robustly Optimized BERT Approach) de Facebook.
BLOOM (BigScience Large Open-science Open-Access Multilingual Language Model) de la Communauté européenne, développé par un consortium de chercheurs, de gouvernements et d’entreprises européennes.
Jurassic de la société israélienne AI21.

En plus des plus connus, de nombreuses entreprises misent sur le développement de LLM pour leur propre usage ou pour les commercialiser sur le marché, telles que Baidu, DeepMind, Meta, AI21 Labs, LG AI Research, Anthropic, Huawei, entre autres.

La course consiste à développer des LLM pour son propre business ou pour les commercialiser, en donnant accès aux systèmes entraînés via des APIs logicielles et en facturant l’accès et le contenu.

Tout le monde veut garantir sa place sur le marché de l’IA Générative, car ils savent que cette révolution va modifier significativement les produits, les services et toute notre société.

Capture d’écran posant la question à ChatGPT sur les principales LLMs de l’IA.

Section 6 — Investissements pour le développement de l’IA Générative

Le monde de l’IA Générative est réservé aux acteurs les mieux financés.

Microsoft investit 10 milliards dans OpenAI, en plus des investissements déjà réalisés, tandis que Google, Meta, Amazon, Apple injectent d’énormes investissements pour ne pas perdre leur part de marché.

Comme personne ne peut tout faire seul, dans ce nouveau marché, nous avons presque toujours l’union entre :

Ceux qui ont la volonté et le talent. Dans ce cas, les startups ou les entreprises agiles de technologie (OpenAI, DeepMind, Stable Diffusion, etc.).
Ceux qui détiennent les contenus. Dans ce cas, les moteurs de recherche, encyclopédies, bibliothèques, libraires, etc. (Google, Microsoft Bing, Wikipedia, Meta, etc.).
Ceux qui possèdent les ressources d’infrastructure technologique telles que les services cloud (AWS, Google, Azure Microsoft).
Ceux qui ont le matériel, dans ce cas, les fabricants de GPU (Nvidia, Intel, AMD).

Google est considéré comme l’éléphant dans la pièce, le seul qui a tout en interne et peut donc se développer sans dépendre de tiers, mais il hésite à utiliser des données ouvertes, de peur de tirer une balle dans le pied en popularisant une technologie qui pourrait directement affecter son activité la plus précieuse, la vente de publicité sur le moteur de recherche.

D’autre part, les petites et moyennes entreprises se précipitent pour trouver des solutions en utilisant les API de ces grands systèmes, cherchant à réduire l’accès et le coût des jetons, tout en utilisant des LLM en code source ouvert, qui n’ont pas de coût de formation.

En tenant compte des importantes ressources informatiques et de l’utilisation de l’énergie, une citation intéressante est que l’entraînement d’un grand modèle de LLM a la même empreinte carbone [1] que conduire cinq voitures tout au long de leur vie.

Le GPT-3.5 a été entraîné en utilisant 10 000 cartes GPU de Nvidia, au coût de 10 000 dollars par carte. On dit que le GPT-4 a utilisé 30 000 de ces cartes GPU. On ne connaît pas le coût de l’énergie utilisée ni les coûts généraux de l’infrastructure technologique relevant de la responsabilité de Microsoft dans le partenariat avec OpenAI

1 — Les APIs sont la solution pour ne pas perdre de temps

Les APIs (Interfaces de Programmation d’Applications) permettent l’intégration entre différents systèmes, plates-formes et dispositifs grâce à l’appel de fonctions et de routines.

OpenAI a pris les devants en proposant des APIs pour l’accès à ses systèmes, ainsi que des modèles économiques pour les particuliers et les entreprises.

Le modèle d’utilisation des APIs devrait se répandre dans d’autres environnements, tels que Gemini de Google, Microsoft, Nvidia, BLOOM, entre autres LLMs qui ont émergé récemment.

Les coûts majeurs, tels que ceux de la formation du LLM et du développement des algorithmes, ont déjà été établis. L’accès à l’application peut être payé en quelques centimes de dollars pour l’accès et le volume de données utilisé au coût des tokens.

Un excellent moyen de compenser les coûts initiaux des LLMs et de créer de nouvelles applications pour les commercialiser sur le marché.

La créativité sera la limite dans ce nouveau monde de l’IA Générative, avec les offres croissantes des LLMs et leurs vastes empires de volumes de données.

Section 7 — Le mot de la fin

Les technologies qui émergent au bon endroit et au bon moment finissent par devenir uniques et exponentielles, marquant une période de changements dans l’humanité.

Les micro-ordinateurs, Internet, les navigateurs Web, l’iPhone, le cloud computing, entre autres, ont provoqué des changements de comportement dans la société, ayant un impact sur le marché.

L’impact de l’IA Générative ne sera ressenti que si elle est popularisée, permettant l’accès au plus grand nombre possible de personnes.

Avec ChatGPT, l’IA tend à devenir populaire, offrant un accès à des milliards de personnes dans divers secteurs, que ce soit dans la vie personnelle ou professionnelle.

Les modèles de fondation, avec leurs LLMs, seront le vecteur de cette popularisation, adaptant les connaissances par utilisateur, par questions et demandes.

Un oracle qui détient toute la connaissance du monde. Un maître prêt à nous servir, produisant des connaissances pour résoudre des problèmes.

Peu importe votre âge, vous utiliserez cette technologie que nous ne connaissons pas encore intégralement, et nous ne savons pas encore évaluer ses risques, son impact et ses avantages.

En tant que société, nous devrons découvrir et trouver les meilleures alternatives pour son utilisation et ses applications, en croyant que l’IA Générative sera une technologie qui apportera des avantages à toute l’humanité.

Auteur : José Antonio Ribeiro Neto (Zezinho).

1 Videos Sora — https://openai.com/sora

2 HAI — https://crfm.stanford.edu