Formation Réaliser des applications Apache Spark pour le Big Data

Réaliser des applications Apache Spark pour le Big Data

Description

Vous développerez des applications Java ou Scala pour traiter en temps réel des données issues du Big Data. Vous collecterez, stockerez et traiterez avec Spark des données de formats hétérogènes afin de mettre en place des chaînes de traitement intégrées à votre système d'information. Les travaux pratiques sont réalisés en Java ou Scala au choix du participant.

Objectifs

A l'issue de cette formation, les participants seront en mesure de:

Maîtriser les concepts fondamentaux de Spark
Développer des applications avec Spark Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Exploiter des données avec Spark SQL
Avoir une première approche du Machine Learning

Méthodes pédagogiques

Formation avec un minimum de 50% de travaux pratiques. La session alterne les présentations théoriques avec les exercices en groupe ou individuels. Des versions numériques de tous les documents sont remises aux participants (support de cours, énoncés, corrigés).

Participants

Ce cours s'adresse à des développeurs Java ou Scala souhaitant découvrir et mettre en place Apache Spark.

Pré requis

La pratique de la programmation Java ou Scala est nécessaire.

Programme

Présentation d'Apache Spark

Présentation des objectifs et concepts Apache Spark.

Historique du Framework.
Les différentes versions de Spark (Scala, Python et Java).
Comparaison avec Apache Hadoop.
Les différents modules de Spark.

Mise en pratique: installation et configuration de Spark, exécution d'un premier exemple avec le comptage de mots.

Les Resilient Distributed Dataset (RDD)

Programmer avec les Resilient Distributed Dataset (RDD).

Créer, manipuler et réutiliser des RDD.
Accumulateurs et variables broadcastées.
Utiliser des partitions.

Mise en pratique: manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

Spark SQL

Manipuler des données structurées avec Spark SQL.

SQL, DataFrames et Datasets.
Les différents types de sources de données.
Interopérabilité avec les RDD.
Performance de Spark SQL.
JDBC/ODBC server et Spark SQL CLI.

Mise en pratique: manipulation de Datasets via des requêtes SQL, connexion avec une base externe via JDBC.

Spark en cluster

Exploiter Apache Spark en cluster.

Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
Configurer un cluster en mode Standalone.
Packager une application avec ses dépendances.
Déployer des applications avec Spark-submit.
Dimensionner un cluster.

Mise en pratique: configuration d'un cluster Spark.

Spark Streaming pour le temps-réel

Analyser en temps réel avec Spark Streaming.

Présentation des Discretized Streams (DStreams).
Les différents types de sources.
Manipulation de l'API.
Comparaison avec Apache Storm.

Mise en pratique: consommation de logs avec Spark Streaming.

GraphX

Manipuler des graphes avec GraphX.

Les différentes opérations.
Créer des graphes.
Vertex and Edge RDD.
Présentation de différents algorithmes.

Mise en pratique: manipulation de l'API GraphX à travers différents exemples.

Machine Learning

Introduction au Machine Learning.

Introduction au Machine Learning.
Les différentes classes d'algorithmes.
Présentation de SparkML et MLlib.
Implémentations des différents algorithmes dans MLlib.

Mise en pratique: utilisation de SparkML et MLlib.

Filière

BigData

Code

CP-SPK

Durée

3 jours

Tarif

1590 € HT

Sessions

Nous contacter

01 39 50 2000