Les acteurs émergents de l'IA générative en Europe

L’IA générative en un coup d’œil

Une IA générative est une famille d’IA capable de générer de nouveaux contenus tels que des textes, des images, du son, etc. L’IA générative repose sur un ensemble d’outils dont les modèles d’apprentissage profond (Deep Learning) qui utilisent les réseaux neuronaux. Un réseau neuronal est caractérisé par plusieurs éléments, dont ses paramètres qui sont des valeurs numériques qui conditionnent le comportement, la complexité, et la qualité des résultats fournis par le modèle. Ainsi donc, les paramètres, le choix de leurs valeurs, ainsi que le processus qui conduit à trouver les valeurs appropriées, sont aussi importants que le code des algorithmes. Aujourd’hui, il n’y a pas de consensus entre les principales parties prenantes de l’IA sur la définition exacte de la notion de “Open Source” dans le domaine de l’IA [1]. Néanmoins, il est largement convenu de qualifier de “Open Weights” un modèle dont seuls les paramètres sont libres d’accès et de “Open Source” un modèle dont et les paramètres, et le code sont libres d’accès. C’est cette terminologie que nous retiendrons dans le cadre de cet article.

Mistral AI, souffle d’innovation

Fondée en avril 2023, Mistral AI est une jeune pousse française qui développe et met sur le marché des modèles performants d’IA générative, principalement à destination des développeurs. Les modèles développés par Mistral AI sont en partie destinés à des fins commerciales, tandis que l’autre partie est “semi-ouverte” à la communauté, c’est-à-dire qu’il s’agit là de modèles Open Weights.

Le grand public peut avoir accès aux modèles développés par Mistral AI grâce à un agent conversationnel appelé “Le Chat”. Pour les développeurs et les entreprises, Mistral AI met à disposition leurs modèles de trois manières différentes:

À date, le dernier modèle Open Weights de Mistral AI est nommée Mixtral 8x22B. Il s’agit d’une IA générative monomodale de type texte-à-texte, autrement dit le modèle se nourrit de texte et génère en retour du texte. Le modèle Mixtral 8x22B est basé sur une architecture d’IA connue sous le nom de SMoE, qui est un acronyme anglais signifiant Sparse Mixture of Experts.

L’architecture SMoE repose sur un principe simple. Plutôt que d’envoyer une requête à tous les paramètres du modèle, la requête est reçue uniquement par un sous-ensemble de paramètres, appelé “expert”. Un peu comme si, au lieu d’adresser une question médicale tour à tour à tous les experts (avocat, historien, romancier, médecin, etc.) de votre ville, vous l’adressez directement à l’expert le plus à même d’y répondre, c’est-à-dire votre médecin. L’avantage qui se conçoit aisément est la rapidité du modèle et la baisse des coûts en termes de puissance de calcul nécessaire pour atteindre des performances élevées. La seule difficulté est de pouvoir judicieusement sélectionner l’expert ou l’ensemble des experts appropriés à une requête donnée. Ce choix est clef et dimensionne l’efficacité et la précision du modèle.

Allo la terre… en japonais svp

En novembre 2023, un consortium composé de trois grands groupes lance Kyutai. Il s’agit d’un laboratoire français axé sur la démocratisation de l’IA (générative) par le développement de grands modèles multimodaux mis à disposition des acteurs de l’IA: la communauté scientifique des chercheurs, les développeurs, les entreprises, etc. Tous les modèles développés par Kyutai ont donc vocation à être Open Source.

Le premier et seul modèle, à date, de Kyutai est nommé Moshi et a été développé en six mois. Moshi est une IA multimodale capable d’écouter et de produire de la voix ainsi que du texte. Le modèle se nourrit alors d’audio et en retour génère de l’audio et du texte. Un modèle audio présente plusieurs avantages, notamment celui d’être capable de l’analyse des humeurs et des émotions. Pour l’heure, il n’y a quasi pas d’information sur l’architecture technique sur laquelle se repose Moshi ni les algorithmes utilisés par ce dernier. Les auteurs ont promis de publier sous peu le code ainsi que les paramètres du modèle, ce qui en fera définitivement le premier modèle d’IA générative à commande vocale Open Source. Toutefois, dans la conférence de présentation de leur modèle, les auteurs ont indiqué que Moshi se reposait sur un attelage complexe entre un modèle Audio et un grand modèle de langage baptisé Hélium qui contient sept milliards de paramètres. Dans un anglicisme de convenance, on dirait qu’Hélium est un LLM 7B.

Moshi est déployé et disponible pour le grand public à travers un agent conversationnel audio. Il n’y a pas encore d’API ni autres modèles de déploiement que cet agent conversationnel. Néanmoins, les auteurs de Moshi revendiquent qu’il serait à l’avenir possible de déployer et d’utiliser localement Moshi quand son code et ses paramètres seront publiés.

La souveraineté en double

À l’abri des projeteurs depuis 2019, date de sa création, Aleph Alpha a été propulsé sur le devant de la scène européenne et internationale avec la révélation au grand public de ChatGPT en 2022. Aleph Alpha est une startup Allemande développant des solutions d’IA (générative) à l’adresse des administrations publiques et des entreprises privées. Les fondateurs de la jeune pousse œuvrent à l’échelle européenne pour une IA souveraine et transparente sur les données sources utilisées pour générer des résultats. L’intégralité des modèles développés par Aleph Alpha est commerciale.

Aleph Alpha développe une série de modèles d’IA générative baptisés Luminous-X, où le X peut prendre une des valeurs base, extended, supreme, et control. Certains modèles de la famille sont des IA génératives multimodales capables de se nourrir de texte et d’images, puis de produire du texte. Les chercheurs et les entreprises privés clients d’Aleph Alpha ont accès à chaque modèle de la famille Luminous au travers d’un agent conversationnel appelé “The Playground”. Par ailleurs, ces mêmes clients peuvent avoir accès à Luminous par une API. Enfin, à la demande, Aleph Alpha propose le déploiement on-premise de Luminous, c’est-à-dire la mise en exécution du modèle sur une infrastructure propre aux clients.

Chaque modèle de la famille Luminous repose sur l’architecture dites des Transformers, plus précisément sa variante appelée “decoder-only transformer” ou encore “autoregressive transformer”. Un “Transformer” est un réseau neuronal composé de deux composants majeurs: un encodeur (encoder en anglais), et un décodeur (decoder en anglais). L’encodeur transforme la requête, l’entrée, en un format que le décodeur peut utiliser pour générer une réponse, la sortie. Concrètement, un décodeur ne pouvant pas travailler sur du texte, l’encodeur transforme toute requête exprimée en une séquence de mots vers une série de nombres. Le décodeur utilise par la suite cette série de nombres pour générer en retour une réponse constituée d’une séquence de mots. Comme son nom le suggère, un “decoder-only transformer” est une variante des “transformers” dans laquelle l’encodeur n’est pas nécessaire pour générer des réponses. Cette variante est adaptée à la génération de texte, qui est la tâche principale des modèles de langages décrites dans cet article.

À retenir

L’innovation, le partage, la souveraineté sont des marqueurs de l’écosystème européen de l’IA générative. Mettre en œuvre de nouvelles architectures IA tel que le fait Mistral AI. Stimuler la recherche en IA en rendant accessible les modèles comme l’ambitionne Kyutai. Et, dans le même temps, proposer des solutions qui garantissent l’indépendance des États européens vis-à-vis d’acteurs étrangers tel que le pousse Aleph Alpha. Tous ces ingrédients, pour faire recette, nécessiterait que l’investissement financier reste important et s’accroit dans les années à venir. Les investissements continueront-ils à suivre? L’Europe réussira-t-elle, sur l’IA, à se sortir du piège du cloud et des réseaux sociaux? Domaines dans lesquels, elle n’a produit aucun champion mondial.

Discussion and feedback