[EXPERT'TECH] L'intégration de données, le socle d’une data plateforme

Posté le : 17/07/2019

Data Factory : Service d’intégration de données hybride simplifiant l’extraction, la transformation et le chargement (ETL) à grande échelle.

Aujourd’hui, la donnée ne se résume plus qu’à une suite de caractères ou à une série binaire. Elle constitue une bibliothèque que nous nous devons de consulter avant toute prise de décision. Son importance dans la stratégie et la gouvernance de toute activité n’est plus à démonter. Les entreprises investissent des sommes importantes afin de la collecter, la valoriser et l’exploiter. Cette exploitation leur permettra d’avoir les indicateurs clés les conduisant vers des prises de décision éclairée.

Dans le monde du commerce, la donnée constitue le moteur de la relation client, de la stratégie commerciale et de l’efficacité marketing. Elle permet de vendre plus efficacement, d’optimiser les relations clients, d’enrichir l’expérience client, d’éviter les pertes et les erreurs dommageables. Dans le domaine de l’industrie, la donnée constitue le kérosène des analyses prédictive visant l’optimisation de la production.

Nous arrivons donc à la conclusion qu’il nous faut l’utiliser qu’elle qu’en soit le prix. La plupart du temps, nous associons l’effort de ce processus à l’exploitation et à l’interprétation de la donnée et non pas à son intégration (collecte et transformation). En effet, beaucoup pense que l’intégration de la donnée se résume à un copier-coller. Cependant, elle constitue l’une des phases les plus importantes dans cette chaine en raison de l’hétérogénéité des sources, des destinations, des types, de la fréquence des données mais également de leur mise en disposition et de leur sécurité.

Cas d’usage

Dans un défi de perpétuel croissance et évolution, les entreprises font face à de nombreux besoins d’intégration de donnée. Ces intégrations peuvent se présenter sous différentes formes :

L’historisation de données

Ce dispositif est issu d’un besoin de garder une trace des données opérationnelles qui éventuellement pourraient servir de référence dans la prise de décision.

La récupération ponctuelle ou périodique de données

Ce dispositif peut faciliter la communication d’informations entre différentes entités ne disposant pas de ressources mutualisées.

L’approvisionnement et/ou la synchronisation de base de données

Ce dispositif permet d’échanger des données lorsque la source ne permet pas d’interfaçage directe avec la cible.

Une unification des systèmes, la collaboration globale et un gain en temps

Ce dispositif permet d’avoir une seule et unique plateforme d’échange, fiable, hautement disponible et sécurisé sur laquelle un ensemble d’acteurs peuvent collaborer.

Ces besoins incontournables pour les entreprises ne sont pas passés inaperçus à la vue de grands d’éditeurs. Il existe plusieurs outils pouvant répondre aux besoins d’intégration de données. Nous pouvons citer entre autres Data Factory, Talend, Informatica Power Center, Sql Server Integration Service. Cependant, l’un d’entre eux présente des fonctionnalités avancées et s’intégrant aisément au cloud.

Il s’agit de Azure Data Factory, un service d’intégration de données hybride simplifiant l’extraction, la transformation et le chargement (ETL) à grande échelle.

Il permet de créer facilement des processus ETL et ELT sans code dans l’environnement visuel intuitif, ou écrire votre propre code. Il permet d’intégrer visuellement des sources de données à l’aide de plus de 80 connecteurs natifs ne nécessitant aucune maintenance.

Azure Data Factory

Azure Data Factory regorge de fonctionnalités qui ont été développé dans le but de réduire au minima la complexité d’utilisation tout en garantissant l’efficacité. Il s’agit entre autres :

Mappage de flux de données

Cette fonctionnalité permet de développer une logique graphique de transformation des données à grande échelle, sans écrire de code, à l’aide du Mappage de flux de données (préversion).

Modèles prédéfinis

Cette fonctionnalité permet d’utiliser la bibliothèque étendue de modèles pour les tâches courantes telles que la création de pipelines (flux de travail orientés données), la copie à partir d’une base de données et les processus ETL.

Flux de contrôle

Cette fonctionnalité permet de créer visuellement des workflows pour orchestrer des processus d’intégration et de transformation des données à grande échelle.

Déclencheurs

Cette fonctionnalité permet d’automatiser l’exécution des pipelines en créant et en planifiant des déclencheurs.

Wrangling Data Flows

Cette fonctionnalité permet d’explorer et de préparer vos données sans écrire de code.

Concept Data Factory

Comment cela fonctionne-t-il ?

Les pipelines (flux de travail orientés données) dans Azure Data Factory effectuent généralement les quatre étapes suivantes :

Se connecter et collecter

Les entreprises disposent de données de différents types situées dans différentes sources locales, dans le cloud, structurées, non structurées et semi-structurées, toutes récupérées à des intervalles et à des vitesses variables.

La première étape dans la création d’un système de production d’informations consiste à se connecter à toutes les sources nécessaires de données. L’étape suivante consiste à déplacer les données souhaitées vers un emplacement centralisé pour un traitement ultérieur.

Transformer et enrichir

Une fois que les données sont présentes dans un magasin de données centralisé dans le cloud, il faut les traiter ou/et transformer afin de lui apporter plus de valeurs à l’aide de services de calcul tels que HDInsight Hadoop, Spark, Data Lake Analytics et Machine Learning.

Publier

Une fois que les données brutes ont été affinées sous une forme utilisable par l’entreprise, il faut les charger dans un moteur d’analyse tel qu’Azure Data Warehouse sur lequel les utilisateurs peuvent accéder à partir de leurs outils d’analyse décisionnelle.

Surveiller

Une fois les pipelines d’intégration de données créés et déployés afin de bénéficier de la valeur commerciale fournie par les données affinées, il faut surveiller les activités planifiées et les pipelines pour connaître les taux de réussite et d’échec.

ADF réduit énormément la charge la complexité de développement de pipelines d’intégration. En effet, sans ADF, les entreprises seraient obligées de concevoir des composants personnalisés chargés du déplacement des données ou écrire des services personnalisés pour intégrer ces sources de données et leur traitement. Il est coûteux et difficile d’intégrer et de gérer ces systèmes et sont souvent dépourvus des fonctionnalités de surveillance, d’alertes et de contrôles de niveau entreprise qu’un service comme ADF entièrement géré peut offrir.

ADF s’intègre facile aux environnements cloud. Il dispose de divers connecteurs lui permettant de se lier aisément aux différents services tout en garantissant un niveau de sécurité élevé. Il s’intègre facilement avec des services tel qu’Azure Data Lake qui est un système de fichiers distribués permettant de stocker des fichiers quelques soit leur taille, Azure Key Vault qui est un service de gestions d’informations confidentielles comme les mode passe, les chaines de connexions, Azure Databricks qui est un service de calcul dont la puissance s’adapte automatiquement à la charge de travail, ….

Concepts de niveau supérieur

Azure Data Factory s’articule autour de quatre composants clés. Ces composants fonctionnent ensemble et vous dotent de la plateforme sur laquelle composer des flux de travail orientés données constitués d’étapes de déplacement et de transformation des données.

Pipeline

Une fabrique de données peut avoir un ou plusieurs pipelines. Un pipeline est un regroupement logique des activités nécessaires pour effectuer une unité de travail. Ensemble, les activités d’un pipeline effectuent une tâche.

L’avantage de cette opération, c’est que le pipeline vous permet de gérer les activités en tant qu’ensemble et non pas individuellement. Les activités d’un pipeline peuvent être chaînées pour fonctionner de manière séquentielle ou peuvent fonctionner en parallèle de façon indépendante.

Activité

Les activités représentent une étape de traitement dans un pipeline. Par exemple, vous pouvez utiliser une activité de copie pour copier des données d’un magasin de données vers un autre. De même, vous pouvez utiliser une activité Hive qui exécute une requête Hive sur un cluster Azure HDInsight afin de convertir ou d’analyser vos données. Data Factory prend en charge trois types d’activités :

Les activités de déplacement des données
Les activités de transformation des données
Les activités de contrôle.

Groupes de données

Les jeux de données représentent les structures des données dans les magasins. Ils pointent vers ou référencent simplement en tant qu’entrées ou sorties les données que vous voulez utiliser dans vos activités.

Services liés

Les services liés ressemblent à des chaînes de connexion. Ils définissent les informations de connexion nécessaires à Data Factory pour se connecter à des ressources externes. Voyez les choses de la façon suivante : un service lié définit la connexion à la source de données et un jeu de données représente la structure des données.

Déclencheurs

Les déclencheurs correspondent à l’unité de traitement qui détermine le moment auquel une exécution de pipeline doit être lancée. Il existe différents types de déclencheurs pour différents types d’événements.

Exécutions de pipeline

Une exécution du pipeline est une instance de l’exécution du pipeline. Les exécutions de pipeline sont généralement instanciées par la transmission des arguments aux paramètres définis dans les pipelines. Les arguments peuvent être transmis manuellement ou être inclus dans la définition du déclencheur.

Paramètres

Les paramètres sont des paires clé-valeur de configuration en lecture seule.  Les paramètres sont définis dans le pipeline. Les arguments des paramètres définis sont transmis au cours de l’exécution à partir du contexte d’exécution qui a été créé par un déclencheur ou un pipeline qui a été exécuté manuellement. Les activités contenues dans le pipeline utilisent les valeurs des paramètres.

Flux de contrôle

Control flow est une orchestration des activités du pipeline, qui inclut le chaînage des activités en une séquence, la création de branches, la définition de paramètres au niveau du pipeline et la transmission des arguments lors de l’appel du pipeline à la demande ou à partir d’un déclencheur. Il inclut également la transmission d’états personnalisés et le bouclage des conteneurs, autrement dit, des itérateurs ForEach.

Data Factory, plus qu’un intégrateur, c’est un orchestrateur

Azure Data Factory est un service d’intégration de données hybride simplifiant l’extraction, la transformation et le chargement (ETL) à grande échelle. C’est un outil visuel, facile à prendre en main et qui s’adapte à la charge de calcul. Il s’intègre facilement avec les différents services d’Azure garantissant une meilleure sécurité et une haute disponibilité. La figure suivante résume les composants fondamentaux de ADF :

ADF ne joue pas seulement le rôle d’intégrateur, c’est un service capable d’orchestrer toute la chaine de traitement de la donnée jusqu’à sa valorisation. Je vous propose d’en parler dans le prochain article intitulé : Azure Data Factory, l’orchestration du flux de traitement des données.