AI & Data

Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Szkolenie „Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache” to praktyczne, 3 dniowe warsztaty, podczas których uczestnicy poznają nowoczesne metody budowy skalowalnych i efektywnych platform Big Data.

Czas trwania
24h / 3 dni · 3h
Dla kogo

Idealny dla zespołów, które…

1 Specjalistów IT, architektów dużych danych i inżynierów danych chcących zaprojektować nowoczesne, skalowalne platformy Big Data
2 DevOps i administratorów odpowiedzialnych za wdrożenie i zarządzanie infrastrukturą Hadoop/Spark/Kafka
3 Analityków i inżynierów danych, którzy pragną zrozumieć architekturę i narzędzia Apache do przetwarzania i analizy danych
4 Osób planujących rozbudowę istniejących rozwiązań lub rozpoczęcie nowych projektów Big Data
Efekty po programie

Praktyczne warsztaty z AI i analityki danych — na realnych przypadkach Twojego zespołu.

Podstawowa znajomość programowania obiektowego w Java lub Python

Znajomość podstaw Big Data i/lub Hadoop będzie dodatkowym atutem

Program · 7 modułów

Co konkretnie robimy

M01
Moduł 1: Wprowadzenie do architektury Big Data
  • · Podstawowe pojęcia i warstwy architektury Big Data: dane, przetwarzanie, zarządzanie, analiza.
  • · Modele architektury: Data Lake, Lambda, Kappa i Data Lakehouse.
  • · Omówienie kryteriów projektowania: typ danych, skalowalność, charakterystyka batch i stream processing.
  • · Przegląd sposobów przetwarzania danych: batch vs stream.
M02
Moduł 2: Apache Hadoop i HDFS
  • · Architektura HDFS – rola NameNode i DataNode, rozproszony system plików.
  • · Przetwarzanie wsadowe z MapReduce – podstawy i zastosowania.
  • · Administracja i monitorowanie klastra Hadoop.
M03
Moduł 3: Podstawy programowania w Python w kontekście Big Data
  • · Zalety funkcjonalnego podejścia i porównanie Pythona z Javą.
  • · Elementy języka Python wykorzystywane przy przetwarzaniu danych: praca z DataFrame, funkcje lambda, komprehensje, map, filter.
  • · Ćwiczenia praktyczne: proste przetwarzanie danych, integracja z narzędziami Big Data (np. PySpark).
M04
Moduł 4: Strumieniowanie i kolejki – Apache Kafka i Apache NiFi
  • · Apache Kafka: architektura, producent, konsument, partycje, replikacja.
  • · Apache NiFi: zarządzanie przepływami danych – integracja źródeł i odbiorników.
  • · Praktyczne ćwiczenia: tworzenie przepływów danych i monitorowanie.
M05
Moduł 5: Analiza danych w czasie rzeczywistym i wsadowa – Apache Spark i Flink
  • · Spark: architektura, RDD, DataFrame, Spark SQL.
  • · Flink: zastosowania do stream processing, okna czasowe, zarządzanie stanem.
  • · Projektowanie zadań batch i streamingowych, optymalizacja i tuning, Catalyst.
  • · Integracja z Apache Hadoop i deployment aplikacji.
M06
Moduł 6: Zarządzanie danymi i metadanymi – Apache Iceberg, Apache Atlas oraz Apache Druid
  • · Apache Iceberg – format tabel skalowalnych, wsparcie ACID, optymalizacja zapytań.
  • · Apache Atlas – metadane, governance danych, śledzenie linii pochodzenia danych.
  • · Apache Druid - Architektura i komponenty Druid, indeksowanie danych. Zarządzanie danymi w czasie rzeczywistym i batch.
M07
Moduł 7: Automatyzacja i orchestracja – Apache Airflow i CI/CD dla Big Data
  • · Projektowanie workflow danych i zarządzanie zależnościami z Airflow.
  • · Praktyczne aspekty implementacji potoków danych oraz automatyzacji przetwarzania.
  • · Integracja z narzędziami CI/CD oraz zarządzanie środowiskami produkcyjnymi.
  • · Automatyzacja i orkiestracja procesów data pipeline.
  • · Definiowanie DAG, praca z taskami w Python i Bash.
Każdy moduł modyfikujemy pod Twój stack i kontekst. Powyższe to punkt wyjścia — nie sztywna agenda.
Jak pracujemy

Od briefu do retro w 30 dniach.

01

Brief i diagnoza

Rozmowa z liderem zespołu + krótka ankieta dla uczestników. Określamy cele, gap, kontekst.

02

Modyfikacja programu

Dostosowujemy moduły, case studies i przykłady kodu pod Twój stack. Akceptacja w 5 dni.

03

Warsztat

Sesje z trenerem, hands-on, code review. Mentor dostępny też pomiędzy sesjami.

04

Retro + raport

Raport z efektami dla zespołu i lidera. 30 dni konsultacji w cenie.

Zapytanie

Wyślij brief. Odezwiemy się w 1 dzień.

Po krótkim briefie przygotujemy program i wycenę. Bez zobowiązań — to tylko punkt wyjścia do rozmowy.

Wycena w 48h od briefu
Pierwsza sesja w 30 dni
Pilotaż przed pełną decyzją
Faktura VAT, możliwość płatności w transzach

Ochrona antyspamowa (Cloudflare Turnstile) zostanie aktywowana po wpięciu klucza.