Corso BIG DATA Full
Documento rilasciato al termine del corso: ATTESTATO di frequenza
Descrizione
Il Corso fornisce una visione generale dell’universo Big Data, ne illustra i principali elementi, gli skill necessari rispetto agli obiettivi da perseguire e come sfruttare i Big Data per elaborare progetti di successo. Quindi affronta i seguenti argomenti: Cassandra, Hadoop, Hbase, Hive, Impala, Kafka, MongoDB, Neo4J, Spark, Sqoop.
A chi è rivolto
Il corso è diretto a Professionisti interessati ad acquisire il set di competenze fondamentali per la creazione di valore dai dati e le logiche di recupero e le tecniche di correlazione.
Altre informazioni
Lingua: Italiano
Materiale: Dispense (ITA/ENG)
Durata: 10 giorni
Requisiti partecipazione: Nessuno
Principali argomenti del corso
Big-Data: i fondamentali
- Introduzione al Big Data ed il suo attuale ecosistema
- Utilizzo del HDFS e differenze con il File System operativo
- Interazioni tra FS ed HDFS
- Utilizzo e scenari per la implementazione di soluzioni Big Data
- Concetti legati a Volume, Velocità, Varietà dei dati
- Basi dati acquisiti e gestiti come Data Lake
Cassandra
- Concetti fondamentali di un database misto tra colonnare e documentale
- Uso di KeySpace e Tabelle in Cassandra
- Utilizzo delle Partizioni e dei nodi per le ridondanze
- Column Family
- Super Colonne
- Chiave di partizionamento e chiavi cluster
- Gestione degli indici secondari
- Gestione del cluster in RING
- Gestione file LOG, MemTable e SSTable
- Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
- Funzioni di aggregazione e di ordinamento del dato
- Gestione dei dati in assenza di Join
- Differenze con database transazionali
- Punti di forza di Cassandra
- Utilizzo per IoT
- Possibili scenari di applicazione
Hadoop
- Concetto di File System distribuito
- Gestione dei nodi
- Balancing
- Ridondanze dati
- Sicurezza
- Map&Reduce
- YARN per la velocizzazione di M&R
- Gestione dell’HDFS da Shell
- Trasferimento dati da e verso Linux
Hbase
- Concetti fondamentali di un database colonnare
- Uso di database e tabella in Hbase
- Utilizzo delle Region per le ridondanze
- Concetto di Versioning
- Column Family e settaggi particolari
- Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
- Funzioni di aggregazione del dato
- Gestione dei dati in assenza di Join
- Differenze con database transazionali
- Punti di forza del colonnare
- Possibili scenari di applicazione
Hive
- Concetti fondamentali di Hive inteso come repository di Warehousing
- Uso di Database e Tabelle in Hive
- Differenza tra tabelle External ed Internal
- Creazione ed utilizzo di indici
- Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
- Funzioni di aggregazione e di ordinamento del dato
- Gestione dei dati con Join
- Differenze con database transazionali
- Punti di forza di Hive
- Importazione dati da sorgenti eterogenee
- Possibili scenari di applicazione
Impala
- Concetti fondamentali di Impala
- Velocità di elaborazione sui dati
- File Parquet e Avro
- Uso di Database e Tabelle
- Comandi per inserimento e visualizzazione dei dati inseriti
- Funzioni di aggregazione e di ordinamento del dato
- Gestione dei dati con Join
- Differenze con database transazionali
- Punti di forza di Impala
- Importazione dati da sorgenti eterogenee con Sqoop
- Possibili scenari di applicazione
Kafka
- Streaming dei dati
- Intercettazione e smistamento dati
- Logiche applicate agli alert in real-time
- Scrittura dati in db nosql di stoccaggio
MongoDB
- Concetti fondamentali di un database documentale
- Uso di database e collection
- Utilizzo degli Shard per le ridondanze
- Array e Documenti nidificati
- Comandi per inserimento, modifica, cancellazione e visualizzazione dei documenti inseriti
- Funzioni di aggregazione del dato
- Gestione dei dati in assenza di Join
- Differenze con database transazionali
- Punti di forza del documentale
- Possibili scenari di applicazione
Neo4J
- Concetti fondamentali di Neo4J
- Definizione di Grafo ed Archi
- Velocità di elaborazione sui dati
- Uso di Database e Tabelle
- Comandi per inserimento e visualizzazione dei dati inseriti
- Funzioni di aggregazione e di ordinamento del dato
- Differenze con database transazionali
- Punti di forza di Neo4J
- Possibili scenari di applicazione
Spark
- Evoluzione del calcolo computazionale rispetto al Map e Reduce di Hadoop
- Sparql per il prelievo dei dati da fonti esterne
- Gestione del cluster in memory
Sqoop
- Accesso a dati transazionali esterni per prelievo dati
- Trasferimento dati da e verso database transazionali
- Scrittura in FS e HDFS
- Scrittura diretta in Hive
- Gestione dei Job
Dove siamo
Sede operativa Via Vincenzo Lamaro, 13 00173 Roma
Gruppo Digital Engineering
Sede legale Via dell'Acquedotto Paolo, 80 00168 Roma