Le Mini Master Program BIG DATA: Hadoop ecosystem, Spark, Python & Scala

Inscrivez-vous



Inscrivez-vous à notre master program BIG DATA.


Mini Master: BIG DATA – Présentielle et Télépresentiel


Le mini Master BIG DATA d’ITAB ACADEMY est une formation organisée à partir des dernières tendances technologiques. C’est une Formation (type tronc commun) pour la préparation aux certifications professionnelles type : IBM, Cloudera, Hortonworks et Databricks.

Cela couvre des connaissances détaillées sur le Big Data et les outils de l'écosystème Hadoop tels que HDFS, YARN, MapReduce, Hive, Pig, HBase, Oozie, Flume et Sqoop. Par ailleurs, cette formation couvre également Apache Kafka, Apache Spark et l'écosystème Spark, qui comprend Spark RDD, Spark SQL et Spark Streaming. Tout au long de cette formation en ligne animée par un instructeur, vous travaillerez sur des labs afin de pratiquer tous les modules couverts dans ce programme.

Session télé-présentielle:

Session Rabat - présentielle:

  • Dates:  31 Octobre-01, 07-08, 14-15, 21-22, 28-29 Novembre 2020.
  • Nombre de jours: 14 jours ( 6H/J)
  • Horaire: De 9h00 à 15h00
  • Lieu : 15, Avenue de France, Appt N°3, Agdal, RABAT (à côté Pizza Hut ) Rabat Agdal.
  • Certifications du MiniMaster:

    • Certification « Mini Master en BIG DATA ».
    • Certification « BIG DATA Engineer »
    • Certification « Spark Developer »
    • Possibilité de passer des certifications d’IBM en BIG data.

S'inscrire à la formation.


Ce module de 5 jours couvre des connaissances détaillées sur le Big Data et les outils de l'écosystème Hadoop tels que HDFS, YARN, MapReduce, Hive, Pig, HBase, Oozie, Flume et Sqoop. Le module a pour objectifs :

  • Comprendre le phénomène Big Data et les notions qu’il recouvre.
  • Comprendre pourquoi tout le monde parle du Big Data et son impact dans l’entreprise.
  • Comment faire du Big Data ? Sur quelle plateforme technologique s’appuyer ?
  • Identifier et s’approprier les outils de l’écosystème Hadoop pour chaque cas d’usage.
  • Faire des labs pour maîtriser les composants du hadoop ecosystème: sqoop, hbase, hive, pig, flume et oozie.
Ce module de 5 jours couvre Apache Kafka, Apache Spark et l'écosystème Spark, qui comprend Spark RDD, Spark SQL et Spark Streaming. Ce module a pour objectifs:

  • Comprendre comment céer un cluster Spark dans le cloud (azure ou aws).
  • Comprendre pourquoi nous avons besoin de Spark.
  • Comprendre les composants de Spark et ses catégories.
  • Comprendre l'architecture de Spark.
  • Comprendre la différence entre les api de spark: RDD, dataframes et datasets et comment les utiliser dans Scala et / ou python.
  • Identifier et s’approprier les bibliothèques de l’écosystème Spark pour chaque cas d’usage.
  • Maitriser le Spark SQL.
  • Connaitre les principes de base du Spark Streaming Dstream et Spark Structured Streaming.
  • Faire des labs pour maîtriser les librairies de Spark: Spark RDD, Spark SQL, Dataframes, Datasets, Datasources, Spark dstream et Spark Structured Streaming.
  • Comprendre les bases de Kafka et ses composants tels que: messages, schémas, rubriques, partitions, producteurs, consommateurs, broker et clusters.
  • Simuler un flux ou streaming entre Kafka et Spark Structured Streaming.
Ce cours de deux journées vise à aider les participants avec ou sans expérience en programmation à développer juste assez d'expérience avec Python pour commencer à utiliser les API python de programmation Apache Spark.
Ce cours de deux journées vise à aider les participants avec ou sans expérience en programmation à développer juste assez d'expérience avec Scala pour commencer à utiliser les API scala de programmation Apache Spark.

Ingénieur d’Etat et consultant BIG DATA, lauréat de l’université Alakhawayn, le formateur a un doctorat en informatique de l’ENSIAS en partenariat avec l’université de Quebec. Il a plus de 12 ans d’expérience dans le domaine professionnel, ainsi il était consultant et chef de projet dans une grande multinationale. Notre formateur possède plusieurs certifications en BIG DATA et SPARK. Il a aussi animé plusieurs formation BIG DATA et Machine Learning pour des grands comptes tel que: Inwi, Orange, Maroc PME, Altran, PhoneGroup, Avito, Xhub, Lydec…

Programme détaillé du Mini Master BIG DATA

Python - Part 1

  • 1. Introduction
  • 2. Why Python?
  • 3. HELLO WORLD
  • 4. INDENTATION
  • 5. VARIABLES
  • 6. DATA TYPES
  • 7. NUMBERS
  • 8. CASTING
  • 9. STRINGS
  • 10. BOOLEAN
  • 11. LISTS
  • 12. TUPLES
  • 13. Set
  • 14. Dictionaries

Python - Part 2

  • 1. If … Else
  • 2. Loops
  • 3. Functions
  • 4. Lambda Functions
  • 5. Array
  • 6. Classes/Objects
  • 7. Inheritance
  • 8. Iterators
  • 9. Scope
  • 10. Modules
  • 11. Datetime
  • 12. JSON
  • 13. RegEx
  • 14. PIP
  • 15. Try … Except
  • 16. User Input
  • 17. String Formating

Scala- Part 1

  • 1. Expressions
  • 2. Values
  • 3. Variables
  • 4.Blocks
  • 5. Functions
  • 6. Methods
  • 7. Conditional expressions
  • 8. For loop
  • 9. While loop

Scala- Part 2

  • 1. Classes & Objects
  • 2. Constructor
  • 3. Method overloading
  • 4. This keyword
  • 5. Inheritance
  • 6. Method Overriding
  • 7. Traits
  • 8. Scala collections
  • 9. Functions collections

Hadoop

  • 1. Définition du BIG DATA
  • 2. BIG DATA use cases
  • 3. Hadoop
  • 4. Installation de cloudera
  • 5. Configuration d’une distribution BIG DATA dans le cloud
  • 6. Lab HDFS : Navigating in the hadoop filesystem (HDFS commands)

MapReduce & YARN

  • 1. MAPREDUCE and YARN
  • 2. LAB MAPREDUCE : Creating a mapreduce application that calculates the max temperature for each month in java
  • 3. LAB MAPREDUCE : Creating a mapreduce applaction that performs a wordcount using JAVA
  • 4. SQOOP, HUE, IMPALA
  • 5. SQOOP LAB : Moving a MYSQL database into HIVE using SQOOP and accessing it from impala in hue.

HBASE & Flume

  • 1. HBASE : NOSQL Database
  • 2. Lab HBASE
  • 3. FLUME : Ingesting unstructured data into Hadoop
  • 4. Lab Flume

HIVE & BI DASHBOARD with HUE

  • 1. HIVE : Managing HIVE datawarehouse using Apache HIVE
  • 2. Lab Hive
  • 3. Creating a BI Dashboard with Hue and SOLR

PIG & OOZIE

  • 1. PIG : Creating ETLs with Apache PIG
  • 2. LAB PIG
  • 3. OOZIE
  • 4. PROJECT OOZIE : Creating a Worflow in Oozie (flume, hive, sqoop)

Python & Scala

  • 1. Révision PYTHON
  • 2. Révision SCALA

Spark

  • 1. SPARK Introduction
  • 2. Why we need SPARK?
  • 3. What is SPARK?
  • 4. SPARK COMPONENTS
  • 5. SPARK COMPONENTS CATEGORIES
  • 6. SPARK Architecture
  • 7. What is an RDD?
  • 8. RDD features
  • 9. RDD sources
  • 10. RDD Workflow & DAG
  • 11. How to create an RDD?
  • 12. Transformations
  • 13. Actions
  • 14. Persistence
  • 15. RDD limitations
  • 16. Will Spark replace MapReduce?
  • 17. LAB SPARK : Creating a SPARK application in SCALA

SPARK SQL

  • 1. Qu'est-ce que SPARK SQL?
  • 2. Architecture de SPARK SQL
  • 3. Histoire des RDDs, DATAFRAMES et DATASETS
  • 4. Nouvelle API SPARK 2.0
  • 5. RDD (rappel)
  • 6. DATAFRAMES
  • 7. DATASETS
  • 8. SPARK SQL LAB1 : Creating dataframes & Datasets using SPARK .2.4 in scala or python
  • 9. SPARK SQL LAB2 : SPARK DATASOURCES in scala or python
  • 10. Spark SQL LAB3 : Analyzing flight delays in scala or python
  • 11. SPARK SQL LAB4 : Analyzing soccer games file between 1872 and 2019 in scala or python

Spark Streaming and Kafka

  • 1. Qu’est ce que SPARK STREAMING?
  • 2. Comment fonctionne SPARK STREAMING?
  • 3. Principes de base du SPARK Streaming
  • 4. Streaming Context
  • 5. DStream
  • 6. Caching
  • 7. Accumulators
  • 8. Broadcast Variables
  • 9. Checkpoints
  • 10. SPARK DSTREAM LAB : Streaming data from a PY file in Scala
  • 11. SPARK STRUCTURED STREAMING
  • 12. What is the difference between Spark Structured Streaming and DStreams?
  • 13. Programming model
  • 14. SSS – Example
  • 15. Handling Event-time and Late Data
  • 16. SPARK SSS LAB : SPARK - Structured Streaming using Python or SCALA DataFrames API
  • 17. APACHE KAFKA
  • 18. LAB1: Spark Structured Streaming and KAFKA
  • 19. LAB2: Confluent installation
  • 20. LAB KAFKA: Integrating SPARK SSS with Apache KAFKA.

Présentations des projects

  • 1. Classes & Objects
  • 2. Constructor
  • 3. Method overloading
  • 4. This keyword
  • 5. Inheritance
  • 6. Method Overriding
  • 7. Traits
  • 8. Scala collections
  • 9. Functions collections
  • 1. Cloudera CDP installation
  • 2. Delta Lake
  • 3. Tez and hive, pig & scoop on tez
  • 4. Zeppelin with Spark in scala (demo in spark)
  • 5. Dataikuu (on spark)
  • 6. Spark genomic
  • 7. COVID 19 prediction in python
  • 8. COVID 19, prediction in AWS SPARK or databricks
  • 9. MLFLOW
  • 10. DEEP LEARNING with tensorflow
  • 11. Snowflake
  • 12. Apache Kudu
  • 13. AUTOML

FAQs

Hadoop est un projet Apache (c'est-à-dire un logiciel open source) pour stocker et traiter le Big Data. Hadoop stocke les Big Data de manière distribuée et tolérante aux pannes sur du matériel de base. Ensuite, les outils Hadoop sont utilisés pour effectuer un traitement de données parallèle sur HDFS (Hadoop Distributed File System).


Au fur et à mesure que les organisations ont réalisé les avantages du Big Data Analytics, il y a donc une demande pour les professionnels du Big Data et Hadoop. Les entreprises recherchent des experts Big data et Hadoop ayant la connaissance de l'écosystème Hadoop et des meilleures pratiques concernant HDFS, MapReduce, Spark, HBase, Hive, Pig, Oozie, Sqoop & Flume.


La formation Itabacademy Hadoop et Spark est conçue pour faire de vous un praticien certifié Big Data en vous fournissant une formation pratique riche sur l'écosystème Hadoop et Spark. Cette formation de certification de développeur Hadoop et Spark est un tremplin vers votre parcours Big Data et vous aurez l'opportunité de travailler sur divers projets Big Data. Au même temps, la partie Spark est conçu pour vous fournir les connaissances et les compétences nécessaires pour devenir un développeur Big Data et Spark. Cette formation vous aidera à passer les certifications big data professionnels type : Cloudera, Databricks, IBM, Hortonworks et MapR.


Vous comprendrez les bases du Big Data et de Hadoop. Vous apprendrez comment Spark permet le traitement des données en mémoire et s'exécute beaucoup plus rapidement que Hadoop MapReduce. Vous découvrirez également les RDD, Spark SQL pour le traitement structuré, les différentes API proposées par Spark telles que Spark Streaming. Ce cours fait partie du parcours de carrière d'un développeur Big Data. Il englobera également les concepts fondamentaux tels que la capture de données à l'aide de Flume, le chargement de données à l'aide de Sqoop, un système de messagerie comme Kafka, etc.


La formation de certification Big Data Hadoop et Spark est conçu par des consultants experts pour faire de vous un praticien certifié Big Data et Spark. Le mini master Big Data Hadoop et Spark propose:


  • Connaissance approfondie du Big Data et de Hadoop, y compris HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) et MapReduce
  • Connaissance approfondie de divers outils appartenant à l'écosystème Hadoop tels que Pig, Hive, Sqoop, Flume, Oozie et HBase
  • La capacité d'ingérer des données dans HDFS à l'aide de Sqoop & Flume, et d'analyser ces grands ensembles de données stockés dans HDFS
  • L'exposition à de nombreux projets basés sur l'industrie du monde réel qui seront exécutés dans cloudera ou le Cloud.
  • Connaissance approfondie de divers outils appartenant à Spark Ecosystem tels que Spark RDD, Spark SQL, Spark Streaming : dstream et structured streaming.
  • La puissance de la gestion des flux de données en temps réel via un système de messagerie de publication-abonnement comme Kafka

Le Big Data est l'un des domaines les plus rapides et les plus prometteurs, compte tenu de toutes les technologies disponibles sur le marché informatique aujourd'hui. Afin de profiter de ces opportunités, vous avez besoin d'une formation structurée avec le dernier programme d'études conformément aux exigences actuelles du secteur et aux meilleures pratiques.


Spark est l'un des outils les plus en croissance et les plus utilisés pour le Big Data & Analytics. Il a été adopté par plusieurs entreprises appartenant à divers domaines à travers le monde et offre donc des opportunités de carrière prometteuses.

La formation à la certification Big Data Hadoop et Spark vous aidera à devenir un expert du Big Data. Il perfectionnera vos compétences en vous offrant des connaissances complètes sur le framework Hadoop et aussi Spark. Pendant le cours Big Data & Hadoop, vous serez formé par nos instructeurs pour:


  • Maîtrisez les concepts de HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) et comprenez comment travailler avec le stockage Hadoop
  • Comprendre l'architecture Hadoop 1.x, Hadoop 2.x et Hadoop 3.x
  • Comprendre le framework MapReduce
  • Mettre en œuvre une solution à l'aide de MapReduce
  • Apprenez les techniques d'ingestion de données à l'aide de Sqoop et Flume
  • Effectuer des opérations ETL et des analyses de données à l'aide de Pig and Hive
  • Implémentation du partitionnement et de l'indexation dans Hive
  • Comprendre HBase, c'est-à-dire une base de données NoSQL dans Hadoop, l'architecture et les mécanismes HBase
  • Planifier des tâches avec Oozie
  • Comprendre Apache Spark et son écosystème
  • Apprenez à utiliser RDD dans Apache Spark
  • Travailler sur un projet d'analyse Big Data avec Spark
  • Travailler sur un cluster Hadoop en temps réel
  • Ecrire des programmes Scala pour créer une application Spark
  • Comprendre Spark et son écosystème
  • Implémenter des opérations Spark sur Spark Shell Implémenter des applications Spark sur YARN (Hadoop)
  • Ecrire des applications Spark à l'aide des concepts Spark RDD
  • Executer des requêtes SQL à l'aide de Spark SQL
  • Expliquer Kafka et ses composants
  • Intégrer Kafka avec des systèmes de streaming en temps réel comme Spark Streaming
  • Utiliser Kafka pour produire et consommer des messages
  • Créer un processus d'application Spark Streaming
  • Implémentez différentes sources de données en streaming

Le marché de l'analyse Big Data est en croissance à travers le monde et ce modèle de croissance forte se traduit par une excellente opportunité pour tous les professionnels de l'informatique. Les responsables du recrutement recherchent des professionnels certifiés Big Data Hadoop et Spark. Notre formation qui prépare à la certification Big Data et Hadoop et Spark vous aide à saisir cette opportunité et à accélérer votre carrière. Notre cours Big Data Hadoop et Spark peut être suivi par des professionnels comme par des novices. Il est le mieux adapté pour:


  • Passionnés de Big Data
  • Développeurs logiciels, chefs de projet
  • Architectes logiciels
  • Consultant BI
  • Ingénieurs de données
  • Data Analyst
  • Data scientist
  • DBA et professionnels de la base de données
  • Ingénieurs en informatique
  • Diplômés cherchant à construire une carrière dans le domaine du Big Data

Comme vous le savez, de nos jours, de nombreuses organisations manifestent de l'intérêt pour le Big Data et adoptent Hadoop et Spark dans le cadre de leur stratégie de solution, la demande d'emplois dans le Big Data et Spark augmente rapidement. Il est donc grand temps de poursuivre votre carrière dans le domaine du Big Data et de l'analyse avec notre formation qui prépare à la certification Hadoop et Spark avec Python et Scala.

Il n'y a pas de tels prérequis pour la formation Big Data, Hadoop et Spark. Cependant, une connaissance préalable de la programmation, SQL et linux sera utile mais n'est pas obligatoire. De plus, pour parfaire vos compétences, Itabacademy propose le cours gratuit "python et Scala" à suivre à votre rythme lorsque vous vous inscrivez au cours Big Data, Hadoop et Spark.



WhatsApp Image 2020-07-29 at 15.15.18











Ce que nos clients disent de nous

Moulay Youssef Smaili
Moulay Youssef Smaili
30. Novembre, 2019.
Avis vérifié
Ayant suivi la formation Big data & Machine learning durant la dernière session (octobre-novemvre 2019), je tiens à remercier les formateurs Dr Abdoullah et Dr Amine pour la qualité de la formation, leur pédagogie et leur gentillesse. Je vous souhaite une très bonne continuation et à très bientôt inchallah. Youssef.
AK I
AK I
20. Octobre, 2019.
Avis vérifié
Any big data course in itself is interesting, but thanks to a well designed organization of the material, the hands-on labs and moderators able to deliver knowledge and expertise in a shareable mode instead of a I-give/you-take mode, made it excellent. The staff was professionally great in doing exactly what it is suppose to do and with a genuine smile. I thank you for a job well done.
Benjamin Ekia
Benjamin Ekia
20. Octobre, 2019.
Avis vérifié
ITAB Academy centre avec des formateurs au point sur les différentes formations mon expérience au sein de cette établissement était très riche.
alfousseyni.keita.@yahoo.com Keita
alfousseyni.keita.@yahoo.com Keita
20. Octobre, 2019.
Avis vérifié
Tout d'abord, je dois avouer que le local est très propice pour l'apprentissage. J'ai fait la formation big data et Machine Learning et je dois avouer que le formateur est très compétant et il sait de quoi il parle et cela est largement suffisant.

Quelques références

ITAB ACADEMY en photos

7,900.00MADAjouter au panier