Data

Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Szkolenie „Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache” to praktyczne, 3 dniowe warsztaty, podczas których uczestnicy poznają nowoczesne metody budowy skalowalnych i efektywnych platform Big Data.

Czas trwania

24h · 3 dni

Zapytaj o program → Zobacz wszystkie

Dla kogo

Idealny dla zespołów, które…

1 Specjalistów IT, architektów dużych danych i inżynierów danych chcących zaprojektować nowoczesne, skalowalne platformy Big Data

2 DevOps i administratorów odpowiedzialnych za wdrożenie i zarządzanie infrastrukturą Hadoop/Spark/Kafka

3 Analityków i inżynierów danych, którzy pragną zrozumieć architekturę i narzędzia Apache do przetwarzania i analizy danych

4 Osób planujących rozbudowę istniejących rozwiązań lub rozpoczęcie nowych projektów Big Data

Efekty po programie

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

✓

Podstawowa znajomość programowania obiektowego w Java lub Python

✓

Znajomość podstaw Big Data i/lub Hadoop będzie dodatkowym atutem

Program · 7 modułów

Co konkretnie robimy

M01

Moduł 1: Wprowadzenie do architektury Big Data

· Podstawowe pojęcia i warstwy architektury Big Data: dane, przetwarzanie, zarządzanie, analiza.
· Modele architektury: Data Lake, Lambda, Kappa i Data Lakehouse.
· Omówienie kryteriów projektowania: typ danych, skalowalność, charakterystyka batch i stream processing.
· Przegląd sposobów przetwarzania danych: batch vs stream.

M02

Moduł 2: Apache Hadoop i HDFS

· Architektura HDFS – rola NameNode i DataNode, rozproszony system plików.
· Przetwarzanie wsadowe z MapReduce – podstawy i zastosowania.
· Administracja i monitorowanie klastra Hadoop.

M03

Moduł 3: Podstawy programowania w Python w kontekście Big Data

· Zalety funkcjonalnego podejścia i porównanie Pythona z Javą.
· Elementy języka Python wykorzystywane przy przetwarzaniu danych: praca z DataFrame, funkcje lambda, komprehensje, map, filter.
· Ćwiczenia praktyczne: proste przetwarzanie danych, integracja z narzędziami Big Data (np. PySpark).

M04

Moduł 4: Strumieniowanie i kolejki – Apache Kafka i Apache NiFi

· Apache Kafka: architektura, producent, konsument, partycje, replikacja.
· Apache NiFi: zarządzanie przepływami danych – integracja źródeł i odbiorników.
· Praktyczne ćwiczenia: tworzenie przepływów danych i monitorowanie.

M05

Moduł 5: Analiza danych w czasie rzeczywistym i wsadowa – Apache Spark i Flink

· Spark: architektura, RDD, DataFrame, Spark SQL.
· Flink: zastosowania do stream processing, okna czasowe, zarządzanie stanem.
· Projektowanie zadań batch i streamingowych, optymalizacja i tuning, Catalyst.
· Integracja z Apache Hadoop i deployment aplikacji.

M06

Moduł 6: Zarządzanie danymi i metadanymi – Apache Iceberg, Apache Atlas oraz Apache Druid

· Apache Iceberg – format tabel skalowalnych, wsparcie ACID, optymalizacja zapytań.
· Apache Atlas – metadane, governance danych, śledzenie linii pochodzenia danych.
· Apache Druid - Architektura i komponenty Druid, indeksowanie danych. Zarządzanie danymi w czasie rzeczywistym i batch.

M07

Moduł 7: Automatyzacja i orchestracja – Apache Airflow i CI/CD dla Big Data

· Projektowanie workflow danych i zarządzanie zależnościami z Airflow.
· Praktyczne aspekty implementacji potoków danych oraz automatyzacji przetwarzania.
· Integracja z narzędziami CI/CD oraz zarządzanie środowiskami produkcyjnymi.
· Automatyzacja i orkiestracja procesów data pipeline.
· Definiowanie DAG, praca z taskami w Python i Bash.

Każdy moduł modyfikujemy pod Twój stack i kontekst. Powyższe to punkt wyjścia — nie sztywna agenda.

Jak pracujemy

Od briefu do retro w 30 dniach.

Brief i diagnoza

Rozmowa z liderem zespołu + krótka ankieta dla uczestników. Określamy cele, gap, kontekst.

Modyfikacja programu

Dostosowujemy moduły, case studies i przykłady kodu pod Twój stack. Akceptacja w 5 dni.

Warsztat

Sesje z trenerem, hands-on, code review. Mentor dostępny też pomiędzy sesjami.

Retro + raport

Raport z efektami dla zespołu i lidera. 30 dni konsultacji w cenie.

Zapytanie

Wyślij brief. Odezwiemy się w 1 dzień.

Po krótkim briefie przygotujemy program i wycenę. Bez zobowiązań — to tylko punkt wyjścia do rozmowy.

✓Wycena w 48h od briefu

✓Pierwsza sesja w 30 dni

✓Pilotaż przed pełną decyzją

✓Faktura VAT, możliwość płatności w transzach

Inne programy dla zespołów

Zobacz wszystkie →

Data

Active Directory

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

16h · 2 dni →

Data

Administracja bazami danych MySQL

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

24h · 3 dni →

Data

Administracja usługami Power BI

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

24h · 3 dni →

Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Idealny dla zespołów, które…

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

Co konkretnie robimy

Od briefu do retro w 30 dniach.

Brief i diagnoza

Modyfikacja programu

Warsztat

Retro + raport

Wyślij brief. Odezwiemy się w 1 dzień.

Dziękujemy!

Inne programy dla zespołów

Active Directory

Administracja bazami danych MySQL

Administracja usługami Power BI