BigQuery – performance

Opis szkolenia

To specjalistyczne szkolenie, dostarcza zaawansowanych kompetencji w zakresie optymalizacji zapytań SQL oraz modelowania danych w architekturze columnar storage. Uczestnicy zgłębią techniczne aspekty planów wykonania (Query Execution Plan), ucząc się precyzyjnej identyfikacji wąskich gardeł, takich jak kosztowne operacje shuffle czy niewłaściwa kolejność złączeń.

Program kładzie szczególny nacisk na praktyczne techniki redukcji kosztów operacyjnych poprzez partycjonowanie, klastrowanie oraz umiejętne wykorzystanie funkcji przybliżonych i mechanizmów cacheing-u. Dzięki analizie realnych anti-patterns i pracy z logami audytowymi, kursant zyskuje sprawdzoną metodologię rozwiązywania problemów wydajnościowych w środowiskach Big Data. Całość materiału została osadzona w kontekście nowoczesnych formatów danych (Parquet, Avro) oraz strategii ładowania batch i streaming, co gwarantuje natychmiastowe przełożenie teorii na realne wyniki biznesowe.

Co zyskasz dzięki szkoleniu ?

Cele szkolenia

Szkolenie pozwala uczestnikom:

optymalizować zapytania,
właściwie modelować dane poprzez partycjonowanie i klastrowanie,
analizować plany zapytań,
wykorzystywać widoki zmaterializowane oraz cache,
stosować optymalne metody ładowania danych źródłowych,
umiejętnie monitorować zapytania.

Umiejętności

Dzięki szkoleniu uczestnik będzie:

rozumieć, jak BigQuery wykonuje zapytania oraz co wpływa na ich czas i koszt,
dobierać właściwe partycjonowanie i klastrowanie danych,
pisać zapytania skanujące minimum danych oraz optymalizować złączenia (joiny) i funkcje okna,
diagnozować wolne zapytania oraz umiejętnie szukać wąskich gardeł (bottlenecków),
przewidywać koszt zapytań przed ich uruchomieniem.

Czy to szkolenie jest dla Ciebie ?

Profil uczestników

Szkolenie jest przeznaczone dla:

osób odpowiedzialnych za performance (wydajność) zapytań,
analityków danych i data scientistów,
programistów pracujących z BigQuery lub planujących migrację danych do tego środowiska,
specjalistów IT odpowiedzialnych za integrację, raportowanie i analizę danych,
osób odpowiedzialnych za automatyzację przetwarzania danych.

Przygotowanie uczestników

Uczestnicy powinni:

znać zaawansowane konstrukcje SQL,
mieć doświadczenie w pracy z BigQuery,
znać pojęcia związane z analityką danych i przetwarzaniem zapytań

Czas trwania szkolenia

Przed nami:

2 dni, 16 godzin szkoleniowych

Szczegółowy program szkolenia

Powtórzenie informacji o konstrukcjach SELECT

Grupowanie danych.
Złączenia tabel

Optymalizacja zapytań

Filtracja i ograniczanie skanowanych danych.
Joiny:
- kolejność JOIN-ów,
- broadcast vs shuffle join,
- kiedy JOIN staje się kosztowny.
- Window functions – najczęstsze pułapki.
- CTE (WITH) – zalety i wady.

Modelowanie danych

Columnar storage – co to oznacza w praktyce
Partycjonowanie
Klastrowanie – dobieranie kolumn
Denormalizacja vs Joiny

Analiza planu zapytania

Czytanie Query Execution Plan.
Stages, shuffle, slot time.
Jak znaleźć bottleneck?
Case study: „Dlaczego to zapytanie jest wolne?”.

Materializacja i cache

Query cache – jak działa i kiedy się używa
Materialized Views – ograniczenia vs korzysci
Tabele agregacyjne
Scheduled queries jako element performance

Funkcje przybliżone i skróty

APPROX_COUNT_DISTINCT i inne APPROX*
Kiedy dokładność < czas

Dane źródłowe i formaty

Ładowanie danych: batch vs streaming
Parquet / Avro / JSON – wpływ na performance
Schematy, NULL-e, typy danych
Optymalizacja historycznych danych

Monitoring i troubleshooting

Wykorzystanie INFORMATION_SCHEMA.
Audit logs.
Wyszukiwanie najdroższych zapytań.
Performance anti-patterns (realne przykłady z życia).

Metoda realizacji szkolenia

Szkolenie realizowane jest w formie naprzemiennie następujących po sobie mini wykładów oraz ćwiczeń praktycznych. Szkolenie łączy w sobie fachową wiedzę merytoryczną z praktycznymi przykładami jej wykorzystania w środowisku pracy.

POBIERZ PROGRAM W PDF

W ramach szkolenia zapewniamy

materiały szkoleniowe
certyfikat potwierdzający udział w kursie
pełna obsługa cateringowa

Zobacz również

Security w środowisku BigQuery
Analiza kosztów wykorzystania środowiska GCP

BigQuery – performance

BigQuery – performance

Opis szkolenia

Poznaj program szkolenia

Podobne szkolenia