LLM OD ZERA — napisz własnego GPT-a od zera

Manifest

Od czarnej skrzynki do szklanej skrzynki

Powierzchowne używanie AI — oglądanie wideo, przeklejanie kodu do agenta — buduje iluzję postępu. Zostaje wiedza bez fundamentów. My uczymy inaczej: dekonstruujemy technologię aż zobaczysz, co jest w środku. Przestajesz być konsumentem API. Stajesz się Niezależnym Badaczem.

Kryterium	Podejście konsumenta	Podejście badacza — nasz standard
Sposób nauki	Oglądanie wideo, przeklejanie kodu do agenta AI	Kodowanie od zera, rygorystyczny feedback od mentora
Zrozumienie modelu	Czarna skrzynka — „jakoś działa"	Szklana skrzynka — rozumiesz wewnętrzne mechanizmy
Poziom abstrakcji	Wywoływanie gotowych API (Azure, Anthropic, Snowflake)	Budowa narzędzi od podstaw (np. własny tokenizer)
Dowód zrozumienia	Odhaczanie testów wielokrotnego wyboru	Własne tematy badawcze i rozwiązywanie problemów SOTA

Nić przewodnia

Nie 12 osobnych tutoriali. Jeden model, który rośnie co tydzień.

Przez cały kurs budujesz jednego małego polskiego GPT-a trenowanego na wspólnym korpusie. Tydzień 1 to tokenizer. Tydzień 12 to ten sam model — skwantyzowany, dostrojony i serwowany jako API. Każdy tydzień dokłada realną warstwę do tego samego repo.

Wchodzisz z tym

Umiesz podstawy Pythona
„Transformer" to dla ciebie magia
Używałeś API, nie wiesz co w środku
Attention widziałeś tylko na memach

→

Wychodzisz jako Niezależny Badacz

Własny tokenizer, GPT i pętla treningowa od zera
Model wytrenowany na GPU + czytasz krzywą lossa
QLoRA fine-tune i DPO alignment własnymi rękami
Model skwantyzowany i serwowany jako API
Sam wymyślasz i rozwiązujesz nowe problemy badawcze

Wyróżnik

Czego nie da ci żaden tutorial z YouTube

Karpathy jest po angielsku i kończy na nanoGPT. fast.ai nie dotyka polskiego. Tutoriale PL z YT nie idą od zera. My robimy wszystkie trzy naraz.

Wszystko od zera

Najpierw numpy i czysty PyTorch — backprop, attention, training loop piszesz sam. Dopiero od tygodnia 9 sięgamy po HuggingFace, bo tak pracuje się naprawdę. Rozumiesz każdą macierz, nie tylko wywołanie .fit().

Polski wątek przez cały kurs

Morfologia (pies/psa/psu — czy model to widzi?), Bielik i PLLuM jako studia przypadku, benchmarki KLEJ/LLMzSzŁ, gramatyczność przez Morfeusz2. Tego nie ma u Karpathy'ego ani w fast.ai.

Prawdziwy compute Slayera

Tygodnie treningu, fine-tuningu i inferencji odpalasz na realnych GPU, nie na zabawkowym Colabie z timeoutem. Trenujesz swój 10M model i robisz QLoRA na sprzęcie, który dostajesz w cenie kursu.

Drabina, nie certyfikat do szuflady

Najlepsze capstone'y trafiają do repo Slayera jako otwarte kontrybucje. Kto odda 10/11 HW + capstone, dostaje certyfikat i propozycję roli TA w edycji 3. Kurs produkuje kontrybutorów, nie widzów.

Program · 12 tygodni · 5 bloków

Od tokenizera do wdrożonego modelu

1 wykład (2h) + 1 sesja praktyczna z TA (1,5h) tygodniowo · praca domowa co tydzień · capstone na końcu. Rozwiń tydzień, żeby zobaczyć szczegóły.

Blok I — Fundamenty

TYDZ. 01Tokenizerzrealizowany ✓+

Byte-level BPE, polskie case studies, pułapki produkcyjne

Artefakt: własny tokenizer BPE wytrenowany na polskim tekście

TYDZ. 02Dane: korpus, czyszczenie, deduplikacjapraktyka+

Skąd brać polskie dane: Common Crawl / OSCAR, SpeakLeash, Wikipedia PL
Pipeline: filtrowanie jakości, dedup (MinHash/LSH), PII i RODO, licencje
Dlaczego „garbage in, garbage out" jest w LLM dosłowne

HW: własny filtr jakości + raport co odrzucił i dlaczego (buduje wspólny korpus kursu)

TYDZ. 03Język jako prawdopodobieństwo: od n-gramów do sieciod zera+

Model bigramowy na zliczeniach → ten sam model jako jedna warstwa nn
Embeddingi na polskiej morfologii; backprop od zera (micrograd-style)
Loss = negative log likelihood; perplexity jako „zaskoczenie"

HW: bigram → MLP z oknem 3, generacja pierwszego „polskiego bełkotu"

Blok II — Transformer

TYDZ. 04Attentionod zera+

Self-attention krok po kroku: Q, K, V ręcznie na kartce, zanim dotkniemy kodu
Masked attention, multi-head, positional encoding (learned vs RoPE)

HW: single-head attention w czystym PyTorchu, bez nn.MultiheadAttention

TYDZ. 05Pełna architektura GPTod zera+

attention + MLP + residual + LayerNorm (pre-norm vs post-norm)
nanoGPT-style: cały model w ~300 liniach, czytamy każdą linię
Nowoczesne warianty: RMSNorm, SwiGLU, GQA — co dają i czemu Llama/Qwen ich używają

HW: własny GPT (~10M param.) robi forward pass na korpusie z tyg. 2

TYDZ. 06Trening cz. 1: pętla, optymalizacja, debugowanieGPU+

Training loop od zera: batching, gradient accumulation, AdamW, LR warmup + cosine
Mixed precision (bf16), gradient clipping, checkpointing
Jak czytać krzywą lossa: overfitting, lr za wysoki, zepsuty dataloader

HW: wytrenowany model + wykres lossa + 20 próbek z komentarzem

Blok III — Skala i ocena

TYDZ. 07Trening cz. 2: skalowanieGPU+

Scaling laws (Chinchilla): ile danych na parametr
Multi-GPU: DDP w praktyce, kiedy FSDP; realia 1–4 GPU
Ekonomia treningu i studium: jak powstawały Bielik i PLLuM

HW: policz budżet treningu modelu 1B na 20B tokenów na sprzęcie, który masz

TYDZ. 08Ewaluacja: skąd wiesz, że model jest dobry?PL bench+

Perplexity i jej ograniczenia; ewaluacje downstream
Polskie benchmarki: KLEJ, LLMzSzŁ — co mierzą, a czego nie
Gramatyczność PL: Morfeusz2 + LanguageTool + parser; LLM-as-judge

HW: własny mini-benchmark (30 przykładów) łapiący coś, czego benchmarki PL nie łapią

Blok IV — Od modelu bazowego do asystenta

TYDZ. 09Fine-tuning: SFT, LoRA, QLoRAGPU+

Base vs instruct; format danych instrukcyjnych, chat templates
LoRA/QLoRA od matematyki (rozkład niskiego rzędu) i praktyki (peft)
Fine-tuning polskiego modelu na sprzęcie konsumenckim

HW: QLoRA fine-tune Bielika/Qwen na własnym zbiorze 500+ przykładów

TYDZ. 10Alignment: RLHF i DPOod zera+

Preference data, reward model, RLHF w zarysie
DPO: dlaczego wyparło RLHF w małych labach — loss DPO od zera (~15 linii)
Pułapki: reward hacking, sykofancja, utrata zdolności po alignmencie

HW: DPO na małym zbiorze preferencji; porównanie przed/po na benchmarku z tyg. 8

Blok V — Produkcja i capstone

TYDZ. 11Inference i wdrożenieGPU+

KV-cache, batching, continuous batching — czemu inference to inny problem
Kwantyzacja: GPTQ/AWQ/GGUF — co tracisz na 4 bitach
vLLM / llama.cpp; ekonomia self-hostingu vs API

HW: model z tyg. 9 skwantyzowany i serwowany lokalnie z pomiarem tok/s

TYDZ. 12Capstone + demo dayfinał+

Zespół (2–3 os.) prezentuje projekt end-to-end: dane → trening/FT → ewaluacja → deployment
Przykłady: model domenowy (prawo/medycyna PL), lepszy tokenizer PL, destylacja
Publiczne demo day (stream) — najlepsze projekty trafiają do repo Slayera

Capstone = wejście na drabinę Slayera.

Edycja 2 · najpierw rozmowa, potem zapis

Najpierw zadzwonię i uczciwie powiem,
czy ten kurs jest dla ciebie.

Nazywam się Kacper Wikiel i prowadzę ten kurs. To nie jest kolejny płatny kurs online — to konkretna ścieżka, którą budujemy, żeby wykształcić ludzi do Slayer AI Lab. Dlatego zanim się zapiszesz, chcę z tobą pogadać — kilkanaście minut przez telefon. Powiem wprost, czy ta droga jest dla ciebie, bo nie dla każdego jest. Jeśli lepiej posłuży ci inny materiał, inna kolejność albo darmowe źródło — wskażę ci je. Wolę wskazać ci właściwą drogę niż wpuścić cię na kurs, który nie jest dla ciebie.

Bez spamu i bez nachalnej sprzedaży. Dzwonię raz, gadamy szczerze, decydujesz ty. — Kacper Wikiel

FAQ

Pytania, które padają najczęściej

Ile muszę umieć, żeby zacząć?

Podstawy Pythona (funkcje, pętle, listy) i odwaga wobec matematyki na poziomie liceum. Nie musisz znać PyTorcha ani sieci neuronowych — pierwsze bloki budują to od zera. Jeśli nigdy nie napisałeś skryptu w Pythonie, najpierw nadrób podstawy.

Czy potrzebuję własnego GPU?

Nie. Tygodnie wymagające GPU (6–7, 9–11) odpalasz na compute Slayera, wliczonym w cenę kursu. Do reszty wystarczy laptop.

Ile czasu tygodniowo to zajmuje?

3,5h zajęć na żywo (wykład + sesja z TA) plus praca domowa. Realistycznie licz 6–10h tygodniowo, zależnie od tempa. HW jest obowiązkowe — na tym polega efekt.

Czym to się różni od kursu Karpathy'ego albo fast.ai?

Idziemy od zera i po polsku — z morfologią, Bielikiem, PLLuM i polskimi benchmarkami przez cały kurs. Dochodzimy dalej niż nanoGPT: fine-tuning, alignment (DPO), kwantyzacja i wdrożenie. I dostajesz compute oraz review HW od TA.

Co dokładnie zbuduję?

Jednego małego polskiego GPT-a (~10M param.) — od tokenizera, przez trening na wspólnym korpusie, po QLoRA fine-tune, DPO i serwowanie jako API. Plus zespołowy capstone na demo day.

Co dostaję na końcu?

Działające repo z twoim kodem, certyfikat (przy 10/11 HW + capstone) i — dla najlepszych — propozycję roli TA w edycji 3 oraz szansę na wpięcie capstone'a do repo Slayera.

Napisz własnego GPT-a od zera.
Linijka po linijce.

Od czarnej skrzynki do szklanej skrzynki

Nie 12 osobnych tutoriali. Jeden model, który rośnie co tydzień.

Wchodzisz z tym

Wychodzisz jako Niezależny Badacz

Czego nie da ci żaden tutorial z YouTube

Wszystko od zera

Polski wątek przez cały kurs

Prawdziwy compute Slayera

Drabina, nie certyfikat do szuflady

Większość kursów online kończy 5% osób. Celujemy w 80%.

Od tokenizera do wdrożonego modelu

Dla kogo jest, a dla kogo nie

To jest dla ciebie, jeśli

Odpuść, jeśli

Mechanika kursu

Praca domowa co tydzień

Wspólne monorepo

Certyfikat + rola TA

Nagrania wykładów

Najpierw zadzwonię i uczciwie powiem,
czy ten kurs jest dla ciebie.

Pytania, które padają najczęściej

Od czarnej skrzynki do szklanej skrzynki

Nie 12 osobnych tutoriali. Jeden model, który rośnie co tydzień.

Wchodzisz z tym

Wychodzisz jako Niezależny Badacz

Czego nie da ci żaden tutorial z YouTube

Wszystko od zera

Polski wątek przez cały kurs

Prawdziwy compute Slayera

Drabina, nie certyfikat do szuflady

Większość kursów online kończy 5% osób. Celujemy w 80%.

Od tokenizera do wdrożonego modelu

Dla kogo jest, a dla kogo nie

To jest dla ciebie, jeśli

Odpuść, jeśli

Mechanika kursu

Praca domowa co tydzień

Wspólne monorepo

Certyfikat + rola TA

Nagrania wykładów

Najpierw zadzwonię i uczciwie powiem,czy ten kurs jest dla ciebie.

Pytania, które padają najczęściej

Najpierw zadzwonię i uczciwie powiem,
czy ten kurs jest dla ciebie.