logo blog it atawiz
chevron up
8 minutes de lecture
Azure Data Factory (solution Low-code)
Ahmed - il y a un an
Dans cet article, nous allons suivre toutes les étapes pour réaliser un export de plusieurs tables SQL en CSV en utilisant les composants d’Azure Fata Factory

Table of contents

Contexte

Lookup :

ForEach

DATAFLOW

SOURCE :

SINK :

Conclusion :

Contexte

Le but de ce tutoriel est d’importer plusieurs tables Azure SQL d’un schéma défini vers Azure Datalake Storage Gen2 sous format CSV en utilisant Azure Data Factory à l’aide du module Data Flow. Data Flow est le module qui vous permet de faire des transformations de données ETL low-code car il vous met à disposition des composants de transformation. Le premier composant à utiliser est le :

Lookup :

Lookup récupère l’ensemble de données à partir d’une source pour vous mettre en sortie une liste de tables ou de fichiers, ça peut être le résultat d’une requête ou le contenu d’une configuration de fichier.

adf_1.png

Lookup prend en entrée un Dataset ,dans notre cas c’est une vue SQL qui renvoie la liste des tables pour un schéma donné :

select name from sys.tables  where schema_id=5

ForEach

ForEach est un flux répétitif d’activité dans un pipeline Azure ou Synapse, elle vous donne la possibilité d’effectuer une itération sur un workflow (FOREACH) Il prend comme paramètre d’entrée item :

@activity('Lookup1').output.value

adf_2.gif

DATAFLOW

Dataflow est un composant qui vous permette d’exécuter un ensemble de tâches de transformation de données et de charger votre output dans une destination table ou fichier.

adf_3.gif

À l’intérieur de ce Dataflow, nous effectuerons un export de données à partir de tables Azure SQL vers un fichier CSV

adf_4.png

Quand nous effectuons un ETL dans Azure Data Factory, nous avons besoin de créer des datasets : un pour la source et un pour la destination. Un dataset nécessite la création d’un linkedservice, c’est un composant qui ressemble beaucoup aux chaînes de connexion, qui définissent les informations de connexion nécessaires pour que le service se connecte aux ressources externes.

SOURCE :

adf_5.png

Le dataset de la source prend en entrée un paramètre Table pour désigner le nom de la table importée

adf_6.png

SINK :

adf_7.png

Le dataset de Sink prend en entrée plusieurs paramètres qui vont définir la structure du fichier

adf_8.png

Dans l’onglet settings, un paramétrage est à faire pour attribuer aux fichiers créés le même nom des tables sources.

adf_9.png

Conclusion :

Azure Data Factory (ADF) est la plateforme ETL/ELT officielle d’Azure qui est l’évolution de SSIS, elle même L’ETL historique on-premise de Microsoft. ADF vous aide à concevoir vos solutions de transfert de données on-premise ou cloud provider. Il s'agit d'une offre Serverless qui vous permet d'effectuer des transformations de données d'entreprise tout en gouvernant Azure Data Factory à l'aide de l'écosystème Azure. L'évolution de l'ADF en tant qu'outil et son adoption au cours des dernières années ont été incroyables. En quelques années seulement, Microsoft a été en mesure de fournir un outil d'orchestration et de transfert de données de haute qualité.