BigQuery – performance
Poznaj program szkolenia
- Co zyskasz dzięki szkoleniu ?
Cele szkolenia
Szkolenie pozwala uczestnikom:
- optymalizować zapytania,
- właściwie modelować dane poprzez partycjonowanie i klastrowanie,
- analizować plany zapytań,
- wykorzystywać widoki zmaterializowane oraz cache,
- stosować optymalne metody ładowania danych źródłowych,
- umiejętnie monitorować zapytania.
UmiejętnościDzięki szkoleniu uczestnik będzie:
- rozumieć, jak BigQuery wykonuje zapytania oraz co wpływa na ich czas i koszt,
- dobierać właściwe partycjonowanie i klastrowanie danych,
- pisać zapytania skanujące minimum danych oraz optymalizować złączenia (joiny) i funkcje okna,
- diagnozować wolne zapytania oraz umiejętnie szukać wąskich gardeł (bottlenecków),
- przewidywać koszt zapytań przed ich uruchomieniem.
- Czy to szkolenie jest dla Ciebie ?
Profil uczestników
Szkolenie jest przeznaczone dla:
- osób odpowiedzialnych za performance (wydajność) zapytań,
- analityków danych i data scientistów,
- programistów pracujących z BigQuery lub planujących migrację danych do tego środowiska,
- specjalistów IT odpowiedzialnych za integrację, raportowanie i analizę danych,
- osób odpowiedzialnych za automatyzację przetwarzania danych.
Przygotowanie uczestników
Uczestnicy powinni:
- znać zaawansowane konstrukcje SQL,
- mieć doświadczenie w pracy z BigQuery,
- znać pojęcia związane z analityką danych i przetwarzaniem zapytań
- Czas trwania szkolenia
Przed nami:
- 2 dni, 16 godzin szkoleniowych
- Szczegółowy program szkolenia
Szczegółowy program szkolenia
Powtórzenie informacji o konstrukcjach SELECT
- Grupowanie danych.
- Złączenia tabel
Optymalizacja zapytań
- Filtracja i ograniczanie skanowanych danych.
- Joiny:
- kolejność JOIN-ów,
- broadcast vs shuffle join,
- kiedy JOIN staje się kosztowny.
- Window functions – najczęstsze pułapki.
- CTE (WITH) – zalety i wady.
Modelowanie danych
- Columnar storage – co to oznacza w praktyce
- Partycjonowanie
- Klastrowanie – dobieranie kolumn
- Denormalizacja vs Joiny
Analiza planu zapytania
- Czytanie Query Execution Plan.
- Stages, shuffle, slot time.
- Jak znaleźć bottleneck?
- Case study: „Dlaczego to zapytanie jest wolne?”.
Materializacja i cache
- Query cache – jak działa i kiedy się używa
- Materialized Views – ograniczenia vs korzysci
- Tabele agregacyjne
- Scheduled queries jako element performance
Funkcje przybliżone i skróty
- APPROX_COUNT_DISTINCT i inne APPROX*
- Kiedy dokładność < czas
Dane źródłowe i formaty
- Ładowanie danych: batch vs streaming
- Parquet / Avro / JSON – wpływ na performance
- Schematy, NULL-e, typy danych
- Optymalizacja historycznych danych
Monitoring i troubleshooting
- Wykorzystanie INFORMATION_SCHEMA.
- Audit logs.
- Wyszukiwanie najdroższych zapytań.
- Performance anti-patterns (realne przykłady z życia).
Metoda realizacji szkolenia
Szkolenie realizowane jest w formie naprzemiennie następujących po sobie mini wykładów oraz ćwiczeń praktycznych. Szkolenie łączy w sobie fachową wiedzę merytoryczną z praktycznymi przykładami jej wykorzystania w środowisku pracy.
- W ramach szkolenia zapewniamy
W ramach szkolenia zapewniamy
- materiały szkoleniowe
- certyfikat potwierdzający udział w kursie
- pełna obsługa cateringowa
- Zobacz również
- Security w środowisku BigQuery
- Analiza kosztów wykorzystania środowiska GCP
