Formation

Big Data : récolte et analyse de données volumineuses module Spark

Organisme responsable juridiquement de la formation
Cegefos

  • Tout public
• Comprendre le besoin de Spark dans le traitement des données
• Comprendre l'architecture Spark et comment elle distribue des calculs aux nœuds du cluster
• Familiarisez-vous avec l'installation / configuration / mise en page de Spark
• Utilisez Spark pour des opérations interactives et ponctuelles
• Utilisez Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées
• Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
• Comprendre la mise en cache des données de Spark et son utilisation
• Comprendre les implications et les optimisations de performance lors de l'utilisation de Spark
• Familiarisez-vous avec Spark Graph Processing et l'apprentissage par machine Spark ML
Jour 1
Comprendre les fondamentaux de Spark et du développement Scala

* Scala Ramp up
* Introduction à Spark
* RDDs et Spark Architecture

Jour 2
Savoir créer une application spark et utilisez Dataset/ DataFrame/ Spark SQL pour traiter efficacement les données structurées

* DataSets/ DataFrames et Spark SQL
* Création d'application Spark
* Spark Streaming

Jour 3
Optimisation de Spark et utilisation des outils associés
* Caractéristiques de performance et optimisation
* (Facultatif): Aperçu de Spark GraphX
* (Facultatif): Apercu MLLib
Non communiquée
3 jours
Formacode (Domaines de formation) :
  • 31036 Administration base de données
Rome (Métiers) :
  • M1801 Administration de systèmes d'information
NSF (Spécialités de formation) :
  • 326 Informatique, traitement de l'information, réseaux de transmission des données

Entrées/sorties permanentes

Formation 100% à distance

Niveau de sortie : Sans niveau spécifique