Pour apprécier les capacités de l’IA générative à résoudre des problèmes business, il n’y a rien de mieux que le test grandeur nature. L’accès aux grands modèles de langage, GPT-4o, Llama 3.1, Claude 3.5, n’a jamais été aussi facile, au moins en apparence. Car si de nombreux projets ont pu être lancés rapidement ces derniers mois grâce à la connexion facilitée à ces modèles pour la création de nouvelles applications, les factures d’usage de l’API peuvent rapidement grimper.
Optimiser le coût de l’IA générative se conjugue avec la maîtrise des coûts écologiques importants : l’entraînement et le stockage de ces énormes modèles très consommateurs en data et en GPU. Comme souvent, la solution qui paraît la plus simple n’est sans doute pas la plus pérenne. L'équipe R&D de Smart Tribune est très sensible à ces sujets et construit ses produits avec ces piliers au cœur de sa stratégie : proposer des solutions techniques fiables, avec des briques hybrides moins gourmandes en énergie tout en maîtrisant les coûts.
Sommaire:
- Des LLMs toujours plus gros, plus chers, et réellement incontournables ?
- L’ingénierie au coeur du NLP
- Optimiser les coûts avec une infrastructure technique adaptée
- 5 astuces pour réduire les coûts et l'empreinte écologique de l'IA générative
- FAQ de l’IA générative
Des LLMs toujours plus gros, plus chers, et réellement incontournables ?
Les Large Language Models (LLMs), ou grands modèles de langage, sont par définition très gourmands en données et en puissance de calcul. Ces techniques basées sur l’utilisation de réseaux de neurones artificiels profonds (deep learning) permettent d’analyser et de produire du texte sur la base d’énormes corpus de données. La révolution des modèles Transformers et des dérivés de BERT (CamemBERT ou FlauBERT pour le français par exemple) a ouvert la voie à GPT-4 et aux interfaces de dialogue grand public comme ChatGPT).
Tout semble possible avec ces modèles aujourd’hui capables d’analyser des images, de résumer des grands volumes de texte et de générer des vidéos ultra réalistes à partir d’un simple prompt. En pratique, peut-on réellement déléguer toutes ces tâches à l’IA générative dans un environnement professionnel ?
En pratique, les LLMs ne sont pas magiques : ils ne sont pas capables de tout faire et sont même moins performants que des techniques de traitement du langage plus classiques. L’équipe de recherche et développement Smart Tribune poursuit ses travaux en ce sens, grâce à une expertise de plus de 10 ans sur l’utilisation de modèles de Natural Language Processing (NLP). Tout au long de la chaîne de traitement des données textuelles pour la gestion de la connaissance, des algorithmes entraînés par des experts depuis plusieurs années basées sur des règles s'avèrent plus performants que les LLMs. Par exemple pour reconnaître des données sensibles à masquer ou pour identifier des cas critiques à escalader vers des opérateurs humains.
Les grands modèles de langage sont bien souvent difficiles à comprendre et à expliquer, ils fonctionnent comme des grands outils statistiques pour deviner le mot suivant puis le mot suivant jusqu’à construire une phrase cohérente. Cet effet boîte noire n’est pas acceptable pour beaucoup d’applications en entreprise et limite aujourd’hui la mise en production de nombreux projets à cause de cette instabilité, notamment pour des chatbots qui souhaitent délivrer un niveau de connaissance métier élevé.
Si une requête vers un LLM paraît peu chère, la facture peut s’alourdir très vite. Pour contourner la problématique des données sensibles envoyées pour le traitement et la génération de réponse à des acteurs américain, l’open source semble une opportunité intéressante. Maismarts là aussi, attention aux coûts d’infrastructure qui s’envolent très vite pour entraîner, héberger et maintenir un modèle propre à son métier et à son entreprise.
L’ingénierie au coeur du traitement automatisé du langage
L’utilisation systématique des LLMs pour réaliser toutes les tâches imaginables, même quand des alternatives robustes et éprouvées existent déjà, est un fantasme qui peut ralentir de nombreux projets. Partir du principe que nous n’avons plus besoin de passer par des étapes de data science pour nettoyer la donnée et l’analyser, peut vite s’avérer contre-productif. Il faut optimiser les coûts de l’IA générative pour des projets durables !
Dans la réalité de la construction des projets de gestion de la connaissance (construction de base de connaissance, mise à jour automatisée, construction de réponse conversationnelle), la qualité et la diversité de la data sont toujours aussi importantes. L’ingénierie par de vrais humains qui comprennent les enjeux, aussi bien opportunités que défis et risques, est indispensable pour délivrer des projets IA sûrs et performants.
Les ingénieurs NLP ont encore de beaux jours devant eux et sont indispensables pour créer les outils IA de demain au service de l’exploitation de la connaissance. Ces outils doivent être performants en termes de latence et de confiance, mais ils doivent aussi refléter des engagements et valeurs qui vont au-delà de considérations purement techniques. Chez Smart Tribune nous avons mis au point une Séquence IA afin d’utiliser une suite d’agents IA spécialisés afin de réaliser une tâche complexe. Pour créer et organiser une base de connaissance ou pour formuler une réponse précise en format conversationnel, nous faisons appel à des agents différents pour optimiser les coûts et la performance.
Nous le savons depuis de nombreuses années : l’entraînement des grands modèles d’intelligence artificielle et leur utilisation au quotidien s’annonce comme un désastre écologique. Utiliser toujours plus de données et de ressources de calcul aggrave significativement le coût environnemental de la tech, et c’est un sujet important pour toute l’équipe Smart Tribune dans la réflexion autour de l’utilisation de ces modèles.
Les objectifs sont clairs : concevoir les expériences et les séquences d’IA permettant de rationaliser les appels aux LLMs afin de limiter les hallucinations, les coûts mais aussi de réduire la consommation de ressources de calcul pour maîtriser l’impact sur l’environnement.
Une infrastructure technique au service de la connaissance pour optimiser les coûts de l’IA générative
De nombreux professionnels utilisent ChatGPT (ou Claude, Gemini…) en pensant que ce sont des moteurs de recherche fiables auxquels on peut faire confiance. C’est un mirage. Ces grands modèles très gourmands en ressources ne sont pas capables de réaliser toutes les tâches de traitement du langage et de la connaissance, ou peuvent être moins performants que d’autres modèles plus léger dans de nombreux cas.
Pour éviter tous ces pièges économiques et écologiques, la réflexion sur l'infrastructure technique est centrale. L’utilisation de LLMs est une brique parmi toute une séquence spécifique dédiée au traitement du langage naturel. Un chatbot efficace ne repose pas uniquement sur le modèle de langage utilisé, il doit avant tout proposer la bonne information, à la bonne personne, au bon moment. L’organisation de la connaissance, sa qualité et sa facilité d’accès et de compréhension sont les pierres angulaires de cette infrastructure d’IA de confiance responsable.
L’infrastructure technique au cœur de la conversation doit être centrée sur la connaissance, une expertise clé développée chez Smart Tribune bien avant l’arrivée des modèles d’IA générative. Aujourd’hui nous sommes capables d’ajouter la brique IA pour faciliter la construction de cette base de connaissances, afin de gagner du temps, avec l’humain comme garant du fond et de la forme avec un rôle incontournable de “correcteur” et de “validateur”. Cette connaissance est ensuite accessible pour une utilisation au sein d’expériences de conversation plus complètes.
Cette orchestration de l’expert métier humain et de la technologie doit garantir un accès fiable à cette connaissance pour la délivrer de façon directe, contextualisée et personnalisée en discutant avec un utilisateur. Le défi technique majeur est de choisir les bons modèles pour chaque type de tâche et de les agencer au mieux. Les objectifs de nos clients et de nos équipes sont simples : délivrer une expérience performante en assurant une capacité à évaluer les réponses tout au long des séquences IA.
Multi sources, multi formats, multilingue, aucun projet de gestion de la connaissance ne fait peur à nos experts et à nos agents IA. Ensemble, ils sont prêts à relever tous vos défis pour transformer votre relation client et vos processus métier. Contactez-nous pour un échange et une démonstration !
5 astuces pour optimiser vos coûts IA générative et maîtrisez votre empreinte écologique
En résumé, voici 5 astuces pour lancer votre projet IA générative de confiance en maîtrisant vos coûts et votre impact écologique :
- Concevez des expériences fluides et efficaces avant de penser data, IA et modèles génératifs
- Définissez précisément les tâches nécessitant réellement un grand modèle de langage (LLM)
- Dimensionnez votre infrastructure technique et vos fonctionnalités en optimisant leurs besoins en ressources (énergie et appels API facturés)
- Monitorez en temps réel l’usage de vos produits pour optimiser l’utilisation des ressources nécessaires
- Evaluez vos performances au regard des impacts écologiques de votre usage LLM
FAQ de l’IA générative
1. Qu’est-ce qu’un agent IA ?
Un agent IA est conçu pour réaliser une tâche très spécialisée. Il peut utiliser des technologies LLM (grands modèles de langage) ou des techniques de traitement du langage plus traditionnelles et moins gourmandes en ressources. Le choix de la technique et des modèles et données utilisés dépend de la performance recherchée sur la tâche assignée à cet agent IA.
2. Qu’est-ce qu’une séquence IA ?
Une séquence IA s’appuie sur plusieurs agents afin de réaliser une suite de micro-tâches pour atteindre un objectif plus global. Pour chaque cas d’usage, et chaque client, les agents IA disponibles sont utilisés et de nouveaux peuvent être créés sur mesure. Chaque séquence IA est auditable de façon globale mais aussi au niveau de chaque agent afin d’en garantir la fiabilité.
3. Pourquoi la base de connaissance est importante pour un chatbot IA ?
Pour être certain que le chatbot IA délivre des réponses fiables, il faut s’appuyer sur une base de connaissances fiables et vérifiées. Cette source de vérité est ensuite interrogée par l’agent spécialisé dans la recherche documentaire afin d’alimenter une séquence de réponse IA. La qualité, l'exhaustivité et la mise à jour de cette base est indispensable pour que le chatbot IA soit efficace en production, en conversation directe avec les prospects et clients.
4. Comment éviter les pièges économiques de l’IA générative ?
Si l’utilisation de grands modèles de langage comme GPT ou Claude semble facile : il suffirait de se connecter à leurs APIs pour les utiliser en production. Sur le principe, c’est juste, mais attention à la facturation à l’usage ! Prenez le temps d’étudier précisément les coûts de mise en place et surtout d’usage des modèles que vous utilisez dans vos chatbots IA pour éviter les mauvaises surprises.
5. Comment maîtriser son impact écologique en utilisant l’IA générative ?
L’IA générative se base sur des modèles “de fondation” très gourmands en données et en ressources de calcul. Il faut donc trouver le juste équilibre entre la performance et l’impact environnemental des solutions développées. C’est une axe primordial dans la conception des Séquences IA pour alimenter les réponses des chatbots IA de confiance chez Smart Tribune.