Modern Data Stack : une infrastructure data moderne pour des décisions stratégiques

Introduction : Pourquoi une Modern Data Stack ?

Dans une entreprise en pleine croissance comme Make IT Safe, les données sont partout. Elles proviennent de sources aussi diverses que des fichiers plats, des fichiers Excel, des bases de données MySQL ou encore des outils comme Pipedrive. Mais si les données sont essentielles, elles deviennent rapidement inutilisables si elles ne sont pas organisées, nettoyées et analysables. C’est comme avoir une bibliothèque remplie de livres sans étiquettes ou classement : bon courage pour trouver ce que vous cherchez !

Avant de mettre en place notre Modern Data Stack, nous étions dans une situation où chaque équipe travaillait avec ses propres données, souvent isolées des autres. Pas idéal ! Nous perdions du temps à chercher des informations, et nos décisions s’appuyaient sur des données souvent manquantes ou partielles.

Pour résoudre ce problème, nous avons décidé de construire une infrastructure moderne et robuste : notre Modern Data Stack. Elle est pensée pour unifier toutes nos données, les rendre accessibles, et surtout les sécuriser.

 

Notre approche : Une Modern Data Stack open source et sécurisée

Nous avons fait des choix technologiques guidés par trois principes :

  1. Souveraineté des données : Toutes nos données restent sur nos serveurs. Rien ne sort de notre infrastructure.
  2. Open source : Nous voulons maîtriser les outils que nous utilisons, sans dépendre de solutions propriétaires coûteuses ou rigides.
  3. Flexibilité et sécurité : Chaque brique de notre stack est déployée et configurée dans un environnement sécurisé, conforme aux standards du marché.

C’est comme si nous avions construit notre propre usine, parfaitement adaptée à nos besoins, et où chaque machine (ou outil) joue un rôle précis dans la transformation des données brutes en analyses exploitables.

 

Les blocs de notre Modern Data Stack

Nous avons structuré notre stack autour de quatre outils principaux, chacun jouant un rôle clé dans le pipeline de traitement des données. Voici une plongée en profondeur dans chaque composant.

La mise en place de notre Modern Data Stack ne s’est pas faite sur un coup de tête ou par attrait pour des outils “nouveaux” et “cool”. Au contraire, chaque choix a été mûrement réfléchi et s’est basé sur deux éléments essentiels : nos expertises internes et l’appui d’accompagnements externes.

Nous avions déjà une expérience significative avec les technologies utilisées. Par exemple, notre équipe maîtrisait MySQL et avait des bases solides en SQL avancé, ce qui nous a naturellement orientés vers DBT et ClickHouse pour exploiter pleinement cette compétence. Nous savions également que l’intégration de données et les pipelines ETL étaient des défis que nous pouvions relever efficacement grâce à un outil comme Airbyte, qui respecte nos contraintes techniques et organisationnelles.

Cependant, pour garantir que la transition se fasse dans les meilleures conditions, nous n’avons pas hésité à nous entourer d’experts externes. Ces partenaires nous ont aidés à configurer les outils, optimiser les pipelines et éviter des pièges courants, tout en partageant des bonnes pratiques adaptées à nos besoins. Cet accompagnement a non seulement accéléré la mise en place de notre architecture, mais il a aussi permis à nos équipes internes de monter en compétence sur ces nouvelles technologies.

En combinant notre expertise interne avec un soutien externe ciblé, nous avons pu construire une infrastructure non seulement performante, mais aussi parfaitement alignée avec nos objectifs stratégiques et nos contraintes opérationnelles. Cette approche nous a permis d’adopter des outils modernes en restant pragmatiques, sans succomber à la simple envie d’utiliser des technologies à la mode. Chaque outil a été choisi pour sa capacité à répondre à des besoins spécifiques, tout en s’intégrant harmonieusement avec les autres composants de notre stack.

Traitement de la data chez Make IT Safe

 

Airbyte : Le connecteur universel qui fait tout le sale boulot

Airbyte est notre “aspirateur de données”. Il se charge d’aller chercher les informations là où elles sont, quelles que soient leurs sources. Que ce soit une base MySQL, une API, ou un fichier CSV, Airbyte est capable de connecter tout ça et de nous livrer les données directement dans notre entrepôt.

Mais Airbyte ne se contente pas d’extraire les données. Il est aussi conçu pour gérer les pipelines de manière fiable. Par exemple, si une tâche échoue (et ça arrive !), il la redémarre automatiquement.

Exemple concret :

Imaginons que nous voulons récupérer les données de notre CRM Pipedrive pour suivre les opportunités commerciales. Grâce à Airbyte, nous avons mis en place un connecteur qui synchronise ces données quotidiennement avec notre data warehouse. Plus besoin de téléchargements manuels ou d’imports laborieux.

Pourquoi on l’adore :

  • Il est open source, donc totalement personnalisable.
  • Sa bibliothèque de connecteurs est gigantesque : plus de 300 intégrations disponibles.
  • Il offre une interface claire pour superviser tous les flux de données.

DBT : Le chef d’orchestre des transformations de données

Si Airbyte est l’aspirateur, DBT (Data Build Tool) est l’architecte. C’est lui qui prend les données brutes extraites et les transforme en modèles prêts à être analysés. L’idée ? Structurer les données pour qu’elles soient compréhensibles et exploitables par les équipes.

Avec DBT, nos analystes peuvent écrire des modèles en SQL pour nettoyer, agréger ou enrichir les données. Mais ce n’est pas tout : DBT garde une trace de toutes les transformations effectuées, ce qui garantit une totale transparence et auditabilité.

Exemple concret :

Prenons les données de satisfaction client. Elles arrivent brutes dans notre data warehouse : un mélange de commentaires, d’évaluations numériques, et de métadonnées. Avec DBT, nous avons créé un modèle qui classe automatiquement les feedbacks par catégorie (positif, neutre, négatif) et calcule un score global de satisfaction.

Pourquoi c’est indispensable :

  • Les transformations sont versionnées, comme du code, ce qui facilite le travail collaboratif.
  • Les erreurs sont faciles à tracer et corriger grâce à l’historique des modèles.
  • Nos équipes gagnent un temps fou en réutilisant des modèles existants.

ClickHouse : L’entrepôt de données taillé pour la vitesse

ClickHouse, c’est le cerveau de notre stack. C’est ici que toutes les données transformées par DBT sont stockées, prêtes à être analysées. Pourquoi ClickHouse ? Parce qu’il est conçu pour gérer d’énormes volumes de données tout en restant ultra-rapide.

Contrairement à une base de données classique, ClickHouse est optimisé pour les requêtes analytiques. Cela veut dire qu’on peut interroger des milliards de lignes et obtenir une réponse en quelques millisecondes.

Exemple concret :

Nous utilisons ClickHouse pour analyser les performances marketing. Combien de leads ont été générés cette semaine ? Quels canaux fonctionnent le mieux ? Ces réponses, autrefois laborieuses à obtenir, sont désormais disponibles quasi instantanément.

Ses super-pouvoirs :

  • Compression avancée des données, ce qui réduit les coûts de stockage.
  • Architecture OLAP (Online Analytical Processing) idéale pour l’analyse multi-dimensionnelle.
  • Évolutivité : il peut gérer des pétaoctets de données sans transpirer.

 

Metabase : L’interface qui donne du sens aux données

Metabase, c’est notre fenêtre sur les données. C’est l’outil que nous utilisons pour visualiser et explorer toutes les informations consolidées dans ClickHouse. L’un des plus grands avantages de Metabase, c’est sa simplicité : pas besoin d’être data scientist pour l’utiliser.

Avec Metabase, chaque équipe peut créer ses propres tableaux de bord ou poser des questions directement sur les données, comme “Quels sont nos produits les plus vendus ?” ou “Quel est le taux de satisfaction moyen ce trimestre ?”.

Exemple concret :

Notre équipe CSM utilise Metabase pour suivre la satisfaction client. En un coup d’œil, elle peut voir quels clients nécessitent une attention particulière et quelles actions prioriser.

Pourquoi c’est génial :

  • Intuitif, même pour les non-techniciens.
  • Les dashboards sont interactifs et personnalisables.
  • Intégration API pour automatiser l’envoi de rapports.

 

Sécurité et gouvernance : Une priorité absolue

La sécurité et la gouvernance des données ne sont pas des options pour nous. Voici ce que nous avons mis en place :

  • Hébergement dans notre réseau sécurisé : Aucun outil ou donnée ne quitte notre infrastructure.
  • Contrôle d’accès strict : Seules les personnes autorisées ont accès à certaines données spécifiques.
  • Auditabilité totale : Chaque modification ou requête est tracée pour garantir la transparence.

Nous avons aussi adopté des politiques internes pour former nos équipes sur la gestion des données, un point crucial pour éviter les erreurs humaines.

 

Les possibilités futures : Intégrer l’IA et les modèles de langage

Notre Modern Data Stack, telle qu’elle est aujourd’hui, offre une base solide pour collecter, transformer, stocker et analyser nos données. Mais nous voyons encore plus loin. Une des opportunités les plus excitantes réside dans l’intégration de l’intelligence artificielle, et plus particulièrement des modèles de langage (LLM), pour maximiser l’impact de nos données.

Avec l’ajout d’agents IA ou de LLM comme Llama, nous pourrions aller au-delà de l’analyse descriptive. Par exemple, ces modèles pourraient non seulement identifier des tendances dans nos données historiques, mais également générer des projections basées sur différents scénarios. Prenons un cas concret : un LLM connecté à notre pipeline pourrait analyser les performances d’une campagne marketing et, sur cette base, proposer des ajustements stratégiques ou même simuler l’impact d’un budget marketing supplémentaire sur les ventes futures. Llama se distingue comme une solution particulièrement adaptée à nos besoins pour plusieurs raisons, notamment son caractère open source et la possibilité de l’héberger sur notre infrastructure.

Ces agents pourraient également jouer un rôle dans l’accompagnement proactif de nos clients. En combinant leurs capacités d’analyse prédictive et leurs aptitudes conversationnelles, nous pourrions fournir des recommandations personnalisées à chaque client. Par exemple, un client cherchant à améliorer sa conformité réglementaire pourrait recevoir une liste de suggestions spécifiques adaptées à son secteur d’activité, accompagnées d’une explication claire et argumentée.

Un autre domaine prometteur est l’automatisation des tâches décisionnelles. En exploitant des LLM pour traiter des données structurées dans ClickHouse, nous pourrions automatiser des processus complexes comme l’optimisation des coûts ou la détection des anomalies. Cela permettrait à nos équipes de se concentrer sur des tâches plus stratégiques, tout en garantissant que nos données travaillent activement pour nous, en continu.

Cependant, l’intégration de l’IA n’est pas sans défis. Nous devons veiller à ce que ces outils respectent les standards élevés de sécurité et de souveraineté que nous avons établis. Les données utilisées pour entraîner ou interagir avec les modèles doivent rester confidentielles et sous notre contrôle total. De plus, nous devons garantir que les recommandations générées par l’IA soient explicables, compréhensibles et alignées avec les besoins spécifiques de nos clients.

En somme, l’intégration de l’IA dans notre infrastructure représente une étape naturelle et ambitieuse. Cela nous permettra non seulement d’explorer de nouveaux horizons dans l’analyse de données, mais aussi de renforcer notre engagement envers nos clients en leur offrant des solutions encore plus pertinentes et personnalisées. Ces innovations seront le socle de notre prochaine évolution.

Conclusion : Une stack pour aujourd’hui et demain

En construisant cette Modern Data Stack, nous avons transformé notre rapport aux données. Non seulement nous sommes plus efficaces, mais nous pouvons aussi accompagner nos clients de manière plus proactive. Cette infrastructure est un investissement dans notre avenir, et elle est conçue pour évoluer avec nos besoins.

Plan 🔽