Fundament: Dane MNIST

Aby zademonstrować efekty regularyzacji (czyli ochrony przed "wkuwaniem na pamięć"), korzystamy z klasycznego zbioru obrazków 28x28 pikseli reprezentujących cyfry (MNIST). Przygotowujemy spłaszczone tablice `(784,)` na potrzeby wielowarstwowego perceptronu ucząc maszynę ich rozpoznawania.

x_train = x_train.reshape(-1, 784).astype("float32") / 255.0

Podstawowa operacja skalowania. Dzielenie wszystkich piskeli przez 255 redukuje wartości z zakresu koloru (0-255) do ułamków (0.0-1.0), co jest kluczowe dla stabilności wyliczeń gradientu na wejściu sieci w pierwszych epokach. Wyzwala to od problemu potężnych początkowych wahnięć losowych.

1. Batch Normalization
(Stabilizacja na bieżąco)

Nawet z pięknie znormalizowanymi danymi na początku, z każdą warstwą gęstą skale powracają do szaleństwa. Ustawiamy wartswy BatchNormalization pomiędzy rdzeniami. Standaryzuje ono średnią i odchylenie każdej aktywacji ukrytej.

    self.dense1 = layers.Dense(n_ukryta1)
    self.bn1 = layers.BatchNormalization()
    self.act1 = layers.Activation('relu')

Klasyczny trój-kombajn. Najpierw dokonujemy swobodnej operacji liniowej Dense (bez narzucania z góry wbudowanej aktywacji). Przechwytujemy gołe wyniki i puszczamy przez BatchNormalization. Dopiero wtedy czystą i wypośrodkowaną masę nakłuwamy łagodną aktywacją wyginającą przestrzeń: Activation('relu').

💡 Po ludzku: Batch Normalization działa jak reżyser dźwięku między każdym muzykiem na scenie orkiestry algorytmicznej. Puzon i Bas nie zagłuszą się nawzajem, a cała orkiestra zostanie podbita by idealnie zmieścić się pod próg dynamiki aktywacji. Dzięki temu sieć uczy się wybitnie szybciej, odpornie i nie utyka w uśpionych wargach skrajnych funkcji matematycznych!

def call(self, x, training=False):
x = self.bn1(x, training=training)

Dla architektury klasowej (Subclassing) niezwykle istotne jest dostarczenie flagi stanu training. Moduły z "pamięcią" statystyczną jak BN czy Dropout potrafią radykalnie zmieniać zachowanie gdy przełączamy się między salą tortur uczenia, a suchą predykcją (gdzie BN używa już średnich sztywnych zapamiętanych podczas treningów). Zaniechanie tego skutkuje usterką przewidywania.

2. L2 Regularization & Dropout
(Celowe zapominanie przeciw Przeuczeniu)

Najgorszym przyjacielem deep learningu jest Overfitting: sytuacja doskonałego opanowania przez sieć zbioru z notatnika przy jednoczesnym zerowym zdolnościom użycia tego w "praktyce" i "w prawdziwym świecie". Aby uchronić sieć, krzywdzimy ją regularyzacją osłabiając jej fotograficzną pewność siebie.

kernel_regularizer=regularizers.l2(l2_lambda)

Kara L2 (Ridge) narzucana w argumentach Dense dorzuca na siłę dodatkową stratę do ogólnego Error Loss ilekroć wagi synaptyczne poszczególnych komórek rosną do wysokich astronomicznych i przesadzonych kwot. Wymusza trzymanie małych, rozproszonych wartości połączeń ukróconych od fałszywie pewnych dyktatorów.

self.dropout1 = layers.Dropout(dropout_rate)

Warstwa Dropout odcina zasilanie (ustawia na 0) losowo wybranej np. 30% części neuronów ukrytych za każdym nowym rzucie treningowym. Zmusi to pozostałych by wzieli zastępczą odpowiedzialność za odgadnięcia bez patrzenia na główne "cechy". W inference (produkcji) odzyskują pełnie.

💡 Po ludzku: Odrobina chaosu leczy sieć. Gdy jeden uczeń na warsztatach by odpowiadał z całości przed prof, reszta drużyny spałaby z tyłu przyswajając śmieszną nicość (overfitting od silnych cech). Oślepiamy tego z przodu randomowo... Nagle cała armia z tyłu musi zewrzeć szyki i ratować logikę szukając zapasowych cech obrazka. Mądre wymuszenie generalizacji i pracy w zespole.

Działanie Mechanizmu Dropout (30%)

Węzły przekreślone na czerwono nie biorą udziału w tej iteracji Forward Pass i propagacji wstecznej. Z każdym updatem zestaw zgasłych losuje się na nowo.

3. Early Stopping (Callbacks)
(Bo czas to pieniądz, a epoki palą sprzęt)

Nigdy nie wiemy jaka powinna być epoka graniczna dla wyciągnięcia optymalnego ułamka logiki. Na ogół odpalamy tysiące epoek - ale dzięki asystentom z Callbacks kod sam strzeże straty i odpuszcza, gdy nauka cośnie i zacznie się wyginać w stronę przerażającego overfittingu.

early_stop = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)

Powołanie bota, który przed każdą kolejną Epoką Trainingową skanuje czy wynik na czystym sprawdzianie val_loss spadł. Jeśli po upływie pięciu testów (patience=5 epok) model jedynie pogłębia porażki, trening jest rygorystycznie urywany, a wagi (co najważniejsze) powracają do stanu ze szczytu swojego absolutnie najlepszego testu z przeszłości.

model_checkpoint = ModelCheckpoint('best_model.keras', save_best_only=True)

Zapisze na surowy dysk serwera natychmiastowego 'zbawcę' gdyby serwer i sam kod uciął się w pyle awarii. Razem te dwa moduły, przekazane do wstawki callbacks=[early_stop, model_checkpoint] metody fit(), wprowadzają bezpieczeństwo do szkolącej sesji.

4. Keras Tuner
(Automatyczny kowolucyjny detektyw Hiperparametrów)

Ręczne wpisywanie różnych LR, Dropoutu, liczebności i gęstości węzłów we for-zagnieżdżeniach to archaiczność. Narzędzie Keras Tuner losowo przeszukuje siatkę ustalonej przestrzeni kosmicznej potężnie szpikując różne wariacje same, generując tabele i szukając złotego środka dla twojego projektu ML!

tuner_random = kt.RandomSearch(
  hypermodel=build_hypermodel,
  objective='val_accuracy',
  max_trials=10,
  directory='tuner_results')
tuner_random.search(x_train, y_train, epochs=15, validation_split=0.1)

W tym przypadku odpalamy poszukiwaczkę metodą MacAartuhra, losowo żonglującą parametrami w poszukiwaniu optymalizacji wyniku Accuracy Walidacyjnego. Po wykonaniu rzędu 10ciu pełnych szkoleń eksperymentalnych (trials), wywołanie get_best_hyperparameters()[0] położy nam gotowy układ optymalny przed naszymi oczami ze struktur ukrytych w katalogach.

⚙️ Symulator Overfittingu i Early Stopping

Sprawdź jak regularyzacja L2 i Dropout dławi przedwczesne Przeuczenie. Zwróć uwagę jak i kiedy strażnik Early Stopping zainterweniuje przy wzroście Val_Loss! (Przełączaj suwak dławienia by uświadczyć korzyści lub destrukcji).

Zabezpieczenie Przeuczenia (Regularization Strength): Stosowne (L2 + Dropout)

Brak RegularyzacjiAgresywna (Underfit)

>_ Callback Listener

                                    -- Callbacks aktywne. Czekam... --

Regularyzacja i Optymalizacja

Fundament: Dane MNIST

1. Batch Normalization
(Stabilizacja na bieżąco)

2. L2 Regularization & Dropout
(Celowe zapominanie przeciw Przeuczeniu)

Działanie Mechanizmu Dropout (30%)

3. Early Stopping (Callbacks)
(Bo czas to pieniądz, a epoki palą sprzęt)

4. Keras Tuner
(Automatyczny kowolucyjny detektyw Hiperparametrów)

Quiz końcowy

Fundament: Dane MNIST

1. Batch Normalization (Stabilizacja na bieżąco)

2. L2 Regularization & Dropout (Celowe zapominanie przeciw Przeuczeniu)

Działanie Mechanizmu Dropout (30%)

3. Early Stopping (Callbacks) (Bo czas to pieniądz, a epoki palą sprzęt)

4. Keras Tuner (Automatyczny kowolucyjny detektyw Hiperparametrów)

Quiz końcowy

1. Batch Normalization
(Stabilizacja na bieżąco)

2. L2 Regularization & Dropout
(Celowe zapominanie przeciw Przeuczeniu)

3. Early Stopping (Callbacks)
(Bo czas to pieniądz, a epoki palą sprzęt)

4. Keras Tuner
(Automatyczny kowolucyjny detektyw Hiperparametrów)