DalonCorp - L'IT à votre service - Introduction à l'inférence

Objectifs de la formation:

Découvrir les modèles légers peu énergivores et leur intégration dans des systèmes d’information complexes.
Maîtriser les interactions entre systèmes via function_calling et BUS de message (ex. NATS).
Introduire les NLP Border Controllers (NLBC) pour sécuriser, gérer et optimiser les flux de données entre les modèles IA et les systèmes connectés.
Concevoir des architectures durables, interopérables et sécurisées.

Comprendre les impacts énergétiques de l’IA :
- Comparaison entre grands modèles (GPT-4) et modèles légers (DistilGPT, LLaMA).
- Avantages des modèles locaux peu gourmands en ressources.
Interopérabilité des systèmes :
- Pourquoi les architectures modernes nécessitent une communication fluide entre les outils.
- Rôle des BUS de message comme NATS dans l’orchestration et la résilience des systèmes distribués.
Cas pratiques en IA durable et intégrée :
- Intégration d’IA légère dans des pipelines interconnectés.

Sélection et déploiement de modèles légers :
- Présentation des modèles légers : DistilGPT, GPT-NeoX, T5-Small.
- Installation et déploiement sur des infrastructures locales ou cloud minimalistes.
Techniques d’optimisation :
- Quantization et pruning pour réduire la charge computationnelle.
- Entraînement par fine-tuning sur des ensembles de données spécifiques.
Avantages pour l’intégration :
- Vitesse d’inférence et scalabilité dans les environnements limités.

Qu’est-ce que le function_calling ? :
- Interagir dynamiquement avec des systèmes externes via des appels de fonctions.
- Faciliter l’intégration des modèles dans des workflows métiers complexes.
Cas d’usage communs :
- Extraction et analyse de données via tool_calling.
- Création de pipelines IA autonomes intégrés à des systèmes ERP, CRM, ou bases de données.
Travaux pratiques :
- Mise en œuvre d’un function_call pour récupérer des informations depuis un service REST.
- Scénarios d’intégration avec des outils comme Zapier, Notion, ou Google Workspace.

Introduction à NATS et aux BUS de message :
- Qu’est-ce qu’un BUS de message ? Différence avec les API REST.
- Présentation de NATS : fonctionnalités, cas d’usage et avantages (faible latence, scalabilité).
Pourquoi choisir un BUS de message dans une architecture IA ? :
- Assurer une communication en temps réel entre les systèmes d’information.
- Déployer des systèmes distribués résilients et évolutifs.
Mise en œuvre avec NATS :
- Installation et configuration d’un serveur NATS.
- Publication et souscription à des messages pour connecter les modèles d’IA à d’autres systèmes.
- Gestion des flux entre modèles légers et autres services tiers via NATS.
Travaux pratiques :
- Intégrer un modèle léger (ex. GPT-NeoX) avec un système de gestion d’inventaire via NATS.
- Construire un pipeline simple où un modèle d’inférence communique avec plusieurs services via le BUS.

Optimiser les performances globales :
- Réduire les ressources consommées par les modèles et le BUS (compression, gestion des connexions).
- Surveiller et optimiser les performances avec des outils de monitoring pour NATS.
Études de cas réels :
- Déploiement d’un chatbot support client interconnecté via NATS pour une gestion en temps réel.
- Utilisation d’un pipeline d’analyse de données légères intégrant function_calling et un BUS de message.
Bonnes pratiques pour l’interopérabilité :
- Structuration des messages dans NATS pour une communication fluide.
- Gestion des erreurs et des reconnections automatiques dans des environnements distribués.

Développeurs, ingénieurs IA, et architectes système cherchant à minimiser les coûts énergétiques et améliorer l’interopérabilité des solutions IA.
Responsables IT et métiers souhaitant intégrer des modèles d’IA dans leurs infrastructures existantes de manière fluide et scalable.

Connaissances de base en Python et manipulation d’API.
Compréhension des concepts d’architecture distribuée et de gestion des messages.

Scripts Python pour :
- Déploiement de modèles légers.
- Implémentation de function_calling.
- Configuration d’un BUS NATS.
Guides pratiques et documentation technique pour l’intégration et la surveillance des performances.

Évaluation via QCM sur les concepts clés (modèles légers, function_calling, et NATS).
Projet de fin de formation : conception d’un pipeline interconnecté utilisant un modèle léger et un BUS de message.