BigQuery – performance

    Czas trwania
    Godzina rozpoczęcia
    Stopień trudności

      BigQuery – performance

      Opis szkolenia

      To specjalistyczne szkolenie, dostarcza zaawansowanych kompetencji w zakresie optymalizacji zapytań SQL oraz modelowania danych w architekturze columnar storage. Uczestnicy zgłębią techniczne aspekty planów wykonania (Query Execution Plan), ucząc się precyzyjnej identyfikacji wąskich gardeł, takich jak kosztowne operacje shuffle czy niewłaściwa kolejność złączeń.

      Program kładzie szczególny nacisk na praktyczne techniki redukcji kosztów operacyjnych poprzez partycjonowanie, klastrowanie oraz umiejętne wykorzystanie funkcji przybliżonych i mechanizmów cacheing-u. Dzięki analizie realnych anti-patterns i pracy z logami audytowymi, kursant zyskuje sprawdzoną metodologię rozwiązywania problemów wydajnościowych w środowiskach Big Data. Całość materiału została osadzona w kontekście nowoczesnych formatów danych (Parquet, Avro) oraz strategii ładowania batch i streaming, co gwarantuje natychmiastowe przełożenie teorii na realne wyniki biznesowe.

      Poznaj program szkolenia

      Co zyskasz dzięki szkoleniu ?

      Cele szkolenia

      Szkolenie pozwala uczestnikom:

      • optymalizować zapytania,
      • właściwie modelować dane poprzez partycjonowanie i klastrowanie,
      • analizować plany zapytań,
      • wykorzystywać widoki zmaterializowane oraz cache,
      • stosować optymalne metody ładowania danych źródłowych,
      • umiejętnie monitorować zapytania.


      Umiejętności

      Dzięki szkoleniu uczestnik będzie:

      • rozumieć, jak BigQuery wykonuje zapytania oraz co wpływa na ich czas i koszt,
      • dobierać właściwe partycjonowanie i klastrowanie danych,
      • pisać zapytania skanujące minimum danych oraz optymalizować złączenia (joiny) i funkcje okna,
      • diagnozować wolne zapytania oraz umiejętnie szukać wąskich gardeł (bottlenecków),
      • przewidywać koszt zapytań przed ich uruchomieniem.
      Czy to szkolenie jest dla Ciebie ?

      Profil uczestników

      Szkolenie jest przeznaczone dla:

      • osób odpowiedzialnych za performance (wydajność) zapytań,
      • analityków danych i data scientistów,
      • programistów pracujących z BigQuery lub planujących migrację danych do tego środowiska,
      • specjalistów IT odpowiedzialnych za integrację, raportowanie i analizę danych,
      • osób odpowiedzialnych za automatyzację przetwarzania danych.

      Przygotowanie uczestników

      Uczestnicy powinni:

      • znać zaawansowane konstrukcje SQL,
      • mieć doświadczenie w pracy z BigQuery,
      • znać pojęcia związane z analityką danych i przetwarzaniem zapytań

       

      Czas trwania szkolenia

      Przed nami:

      • 2 dni, 16 godzin szkoleniowych
      Szczegółowy program szkolenia

      Szczegółowy program szkolenia

      Powtórzenie informacji o konstrukcjach SELECT

      • Grupowanie danych.
      • Złączenia tabel

      Optymalizacja zapytań

      • Filtracja i ograniczanie skanowanych danych.
      • Joiny:
        • kolejność JOIN-ów,
        • broadcast vs shuffle join,
        • kiedy JOIN staje się kosztowny.
        • Window functions – najczęstsze pułapki.
        • CTE (WITH) – zalety i wady.

      Modelowanie danych

      • Columnar storage – co to oznacza w praktyce
      • Partycjonowanie
      • Klastrowanie – dobieranie kolumn
      • Denormalizacja vs Joiny

      Analiza planu zapytania

      • Czytanie Query Execution Plan.
      • Stages, shuffle, slot time.
      • Jak znaleźć bottleneck?
      • Case study: „Dlaczego to zapytanie jest wolne?”.

      Materializacja i cache

      • Query cache – jak działa i kiedy się używa
      • Materialized Views – ograniczenia vs korzysci
      • Tabele agregacyjne
      • Scheduled queries jako element performance

      Funkcje przybliżone i skróty

      • APPROX_COUNT_DISTINCT i inne APPROX*
      • Kiedy dokładność < czas 

      Dane źródłowe i formaty

      • Ładowanie danych: batch vs streaming
      • Parquet / Avro / JSON – wpływ na performance
      • Schematy, NULL-e, typy danych
      • Optymalizacja historycznych danych

      Monitoring i troubleshooting

      • Wykorzystanie INFORMATION_SCHEMA.
      • Audit logs.
      • Wyszukiwanie najdroższych zapytań.
      • Performance anti-patterns (realne przykłady z życia).

      Metoda realizacji szkolenia

      Szkolenie realizowane jest w formie naprzemiennie następujących po sobie mini wykładów oraz ćwiczeń praktycznych. Szkolenie łączy w sobie fachową wiedzę merytoryczną z praktycznymi przykładami jej wykorzystania w środowisku pracy.

      POBIERZ PROGRAM W PDF

      W ramach szkolenia zapewniamy

      W ramach szkolenia zapewniamy

      • materiały szkoleniowe
      • certyfikat potwierdzający udział w kursie
      • pełna obsługa cateringowa
      Zobacz również
      • Security w środowisku BigQuery 
      • Analiza kosztów wykorzystania środowiska GCP

      Podobne szkolenia