Kurs kohortowy · 12 tygodni · edycja 2

Napisz własnego GPT-a od zera.
Linijka po linijce.

12 tygodni od pierwszego tokenizera do wytrenowanego, dostrojonego i wdrożonego modelu językowego. Zaczynasz jako początkujący. Kończysz robiąc prawdziwy AI research — po polsku.

12tygodni
0→1od zera do modelu
GPUcompute Slayera
PLwątek polski
train.py — twój model, tydzień 6
# jeden model przez cały kurs
model = GPT(n_layer=6, n_head=6, n_embd=384)
params = 10.6M # napisane ręcznie
 
step 4000 | loss 1.83 | pl "kot siedział na"
step 5000 | loss 1.61 | "...parapecie i patrzył"
# loss spada. rozumiesz każdą macierz.
Manifest

Od czarnej skrzynki do szklanej skrzynki

Powierzchowne używanie AI — oglądanie wideo, przeklejanie kodu do agenta — buduje iluzję postępu. Zostaje wiedza bez fundamentów. My uczymy inaczej: dekonstruujemy technologię aż zobaczysz, co jest w środku. Przestajesz być konsumentem API. Stajesz się Niezależnym Badaczem.

KryteriumPodejście konsumentaPodejście badacza — nasz standard
Sposób nauki Oglądanie wideo, przeklejanie kodu do agenta AI Kodowanie od zera, rygorystyczny feedback od mentora
Zrozumienie modelu Czarna skrzynka — „jakoś działa" Szklana skrzynka — rozumiesz wewnętrzne mechanizmy
Poziom abstrakcji Wywoływanie gotowych API (Azure, Anthropic, Snowflake) Budowa narzędzi od podstaw (np. własny tokenizer)
Dowód zrozumienia Odhaczanie testów wielokrotnego wyboru Własne tematy badawcze i rozwiązywanie problemów SOTA
Nić przewodnia

Nie 12 osobnych tutoriali. Jeden model, który rośnie co tydzień.

Przez cały kurs budujesz jednego małego polskiego GPT-a trenowanego na wspólnym korpusie. Tydzień 1 to tokenizer. Tydzień 12 to ten sam model — skwantyzowany, dostrojony i serwowany jako API. Każdy tydzień dokłada realną warstwę do tego samego repo.

Wchodzisz z tym

  • Umiesz podstawy Pythona
  • „Transformer" to dla ciebie magia
  • Używałeś API, nie wiesz co w środku
  • Attention widziałeś tylko na memach

Wychodzisz jako Niezależny Badacz

  • Własny tokenizer, GPT i pętla treningowa od zera
  • Model wytrenowany na GPU + czytasz krzywą lossa
  • QLoRA fine-tune i DPO alignment własnymi rękami
  • Model skwantyzowany i serwowany jako API
  • Sam wymyślasz i rozwiązujesz nowe problemy badawcze
Wyróżnik

Czego nie da ci żaden tutorial z YouTube

Karpathy jest po angielsku i kończy na nanoGPT. fast.ai nie dotyka polskiego. Tutoriale PL z YT nie idą od zera. My robimy wszystkie trzy naraz.

01

Wszystko od zera

Najpierw numpy i czysty PyTorch — backprop, attention, training loop piszesz sam. Dopiero od tygodnia 9 sięgamy po HuggingFace, bo tak pracuje się naprawdę. Rozumiesz każdą macierz, nie tylko wywołanie .fit().

02

Polski wątek przez cały kurs

Morfologia (pies/psa/psu — czy model to widzi?), Bielik i PLLuM jako studia przypadku, benchmarki KLEJ/LLMzSzŁ, gramatyczność przez Morfeusz2. Tego nie ma u Karpathy'ego ani w fast.ai.

03

Prawdziwy compute Slayera

Tygodnie treningu, fine-tuningu i inferencji odpalasz na realnych GPU, nie na zabawkowym Colabie z timeoutem. Trenujesz swój 10M model i robisz QLoRA na sprzęcie, który dostajesz w cenie kursu.

04

Drabina, nie certyfikat do szuflady

Najlepsze capstone'y trafiają do repo Slayera jako otwarte kontrybucje. Kto odda 10/11 HW + capstone, dostaje certyfikat i propozycję roli TA w edycji 3. Kurs produkuje kontrybutorów, nie widzów.

Rygor

Większość kursów online kończy 5% osób. Celujemy w 80%.

Nie przez łatwiznę — przez odwrotność. Każde zadanie ocenia człowiek (TA), nie quiz. Feedback zmusza cię do konfrontacji z własnymi błędami, zamiast je ominąć. Zaliczenie to działający kod, nie odhaczony test.

Standard e-learning — złudzenie
5%
  • Konsumpcja gotowych materiałów buduje iluzję postępu
  • Zadania zlecane agentowi AI — uczysz się promptować, nie rozumieć
  • Efekt: powierzchowna wiedza bez fundamentów
Nasz standard — rygor i feedback
80%
  • Rygorystyczna, ludzka ocena każdego zadania
  • Zero bezrefleksyjnego korzystania z asystentów AI w trakcie nauki
  • Konfrontacja z błędami = prawdziwe, trwałe zrozumienie
Program · 12 tygodni · 5 bloków

Od tokenizera do wdrożonego modelu

1 wykład (2h) + 1 sesja praktyczna z TA (1,5h) tygodniowo · praca domowa co tydzień · capstone na końcu. Rozwiń tydzień, żeby zobaczyć szczegóły.

Blok I — Fundamenty
TYDZ. 01Tokenizerzrealizowany ✓+
  • Byte-level BPE, polskie case studies, pułapki produkcyjne
Artefakt: własny tokenizer BPE wytrenowany na polskim tekście
TYDZ. 02Dane: korpus, czyszczenie, deduplikacjapraktyka+
  • Skąd brać polskie dane: Common Crawl / OSCAR, SpeakLeash, Wikipedia PL
  • Pipeline: filtrowanie jakości, dedup (MinHash/LSH), PII i RODO, licencje
  • Dlaczego „garbage in, garbage out" jest w LLM dosłowne
HW: własny filtr jakości + raport co odrzucił i dlaczego (buduje wspólny korpus kursu)
TYDZ. 03Język jako prawdopodobieństwo: od n-gramów do sieciod zera+
  • Model bigramowy na zliczeniach → ten sam model jako jedna warstwa nn
  • Embeddingi na polskiej morfologii; backprop od zera (micrograd-style)
  • Loss = negative log likelihood; perplexity jako „zaskoczenie"
HW: bigram → MLP z oknem 3, generacja pierwszego „polskiego bełkotu"
Blok II — Transformer
TYDZ. 04Attentionod zera+
  • Self-attention krok po kroku: Q, K, V ręcznie na kartce, zanim dotkniemy kodu
  • Masked attention, multi-head, positional encoding (learned vs RoPE)
HW: single-head attention w czystym PyTorchu, bez nn.MultiheadAttention
TYDZ. 05Pełna architektura GPTod zera+
  • attention + MLP + residual + LayerNorm (pre-norm vs post-norm)
  • nanoGPT-style: cały model w ~300 liniach, czytamy każdą linię
  • Nowoczesne warianty: RMSNorm, SwiGLU, GQA — co dają i czemu Llama/Qwen ich używają
HW: własny GPT (~10M param.) robi forward pass na korpusie z tyg. 2
TYDZ. 06Trening cz. 1: pętla, optymalizacja, debugowanieGPU+
  • Training loop od zera: batching, gradient accumulation, AdamW, LR warmup + cosine
  • Mixed precision (bf16), gradient clipping, checkpointing
  • Jak czytać krzywą lossa: overfitting, lr za wysoki, zepsuty dataloader
HW: wytrenowany model + wykres lossa + 20 próbek z komentarzem
Blok III — Skala i ocena
TYDZ. 07Trening cz. 2: skalowanieGPU+
  • Scaling laws (Chinchilla): ile danych na parametr
  • Multi-GPU: DDP w praktyce, kiedy FSDP; realia 1–4 GPU
  • Ekonomia treningu i studium: jak powstawały Bielik i PLLuM
HW: policz budżet treningu modelu 1B na 20B tokenów na sprzęcie, który masz
TYDZ. 08Ewaluacja: skąd wiesz, że model jest dobry?PL bench+
  • Perplexity i jej ograniczenia; ewaluacje downstream
  • Polskie benchmarki: KLEJ, LLMzSzŁ — co mierzą, a czego nie
  • Gramatyczność PL: Morfeusz2 + LanguageTool + parser; LLM-as-judge
HW: własny mini-benchmark (30 przykładów) łapiący coś, czego benchmarki PL nie łapią
Blok IV — Od modelu bazowego do asystenta
TYDZ. 09Fine-tuning: SFT, LoRA, QLoRAGPU+
  • Base vs instruct; format danych instrukcyjnych, chat templates
  • LoRA/QLoRA od matematyki (rozkład niskiego rzędu) i praktyki (peft)
  • Fine-tuning polskiego modelu na sprzęcie konsumenckim
HW: QLoRA fine-tune Bielika/Qwen na własnym zbiorze 500+ przykładów
TYDZ. 10Alignment: RLHF i DPOod zera+
  • Preference data, reward model, RLHF w zarysie
  • DPO: dlaczego wyparło RLHF w małych labach — loss DPO od zera (~15 linii)
  • Pułapki: reward hacking, sykofancja, utrata zdolności po alignmencie
HW: DPO na małym zbiorze preferencji; porównanie przed/po na benchmarku z tyg. 8
Blok V — Produkcja i capstone
TYDZ. 11Inference i wdrożenieGPU+
  • KV-cache, batching, continuous batching — czemu inference to inny problem
  • Kwantyzacja: GPTQ/AWQ/GGUF — co tracisz na 4 bitach
  • vLLM / llama.cpp; ekonomia self-hostingu vs API
HW: model z tyg. 9 skwantyzowany i serwowany lokalnie z pomiarem tok/s
TYDZ. 12Capstone + demo dayfinał+
  • Zespół (2–3 os.) prezentuje projekt end-to-end: dane → trening/FT → ewaluacja → deployment
  • Przykłady: model domenowy (prawo/medycyna PL), lepszy tokenizer PL, destylacja
  • Publiczne demo day (stream) — najlepsze projekty trafiają do repo Slayera
Capstone = wejście na drabinę Slayera.
Dla kogo

Dla kogo jest, a dla kogo nie

To jest dla ciebie, jeśli

  • Umiesz podstawy Pythona i nie boisz się macierzy
  • Chcesz rozumieć LLM od środka, nie tylko wołać API
  • Wolisz napisać backprop niż przeczytać o nim wątek
  • Interesuje cię AI research po polsku i modele PL
  • Chcesz realnego artefaktu w portfolio, nie certyfikatu z quizu

Odpuść, jeśli

  • Szukasz kursu „prompt engineering w 3 godziny"
  • Nie chcesz pisać kodu ani oddawać HW co tydzień
  • Nigdy nie widziałeś Pythona i nie masz czasu nadrobić
  • Chcesz tylko używać ChatGPT, nie budować modeli
Jak to działa

Mechanika kursu

Praca domowa co tydzień

Review robią TA (alumni edycji 1). Zaliczenie = działający kod, nie esej.

Wspólne monorepo

Każdy tydzień to katalog ze skeletonem i solution — spójny format na wszystkie 12 tygodni.

Certyfikat + rola TA

10/11 HW + capstone = certyfikat i propozycja roli TA w edycji 3.

Nagrania wykładów

Każdy wykład nagrywany — wracasz do materiału, kiedy chcesz.

Edycja 2 · najpierw rozmowa, potem zapis

Najpierw zadzwonię i uczciwie powiem,
czy ten kurs jest dla ciebie.

Nazywam się Kacper Wikiel i prowadzę ten kurs. To nie jest kolejny płatny kurs online — to konkretna ścieżka, którą budujemy, żeby wykształcić ludzi do Slayer AI Lab. Dlatego zanim się zapiszesz, chcę z tobą pogadać — kilkanaście minut przez telefon. Powiem wprost, czy ta droga jest dla ciebie, bo nie dla każdego jest. Jeśli lepiej posłuży ci inny materiał, inna kolejność albo darmowe źródło — wskażę ci je. Wolę wskazać ci właściwą drogę niż wpuścić cię na kurs, który nie jest dla ciebie.

Bez spamu i bez nachalnej sprzedaży. Dzwonię raz, gadamy szczerze, decydujesz ty. — Kacper Wikiel
FAQ

Pytania, które padają najczęściej

Ile muszę umieć, żeby zacząć?

Podstawy Pythona (funkcje, pętle, listy) i odwaga wobec matematyki na poziomie liceum. Nie musisz znać PyTorcha ani sieci neuronowych — pierwsze bloki budują to od zera. Jeśli nigdy nie napisałeś skryptu w Pythonie, najpierw nadrób podstawy.

Czy potrzebuję własnego GPU?

Nie. Tygodnie wymagające GPU (6–7, 9–11) odpalasz na compute Slayera, wliczonym w cenę kursu. Do reszty wystarczy laptop.

Ile czasu tygodniowo to zajmuje?

3,5h zajęć na żywo (wykład + sesja z TA) plus praca domowa. Realistycznie licz 6–10h tygodniowo, zależnie od tempa. HW jest obowiązkowe — na tym polega efekt.

Czym to się różni od kursu Karpathy'ego albo fast.ai?

Idziemy od zera i po polsku — z morfologią, Bielikiem, PLLuM i polskimi benchmarkami przez cały kurs. Dochodzimy dalej niż nanoGPT: fine-tuning, alignment (DPO), kwantyzacja i wdrożenie. I dostajesz compute oraz review HW od TA.

Co dokładnie zbuduję?

Jednego małego polskiego GPT-a (~10M param.) — od tokenizera, przez trening na wspólnym korpusie, po QLoRA fine-tune, DPO i serwowanie jako API. Plus zespołowy capstone na demo day.

Co dostaję na końcu?

Działające repo z twoim kodem, certyfikat (przy 10/11 HW + capstone) i — dla najlepszych — propozycję roli TA w edycji 3 oraz szansę na wpięcie capstone'a do repo Slayera.