Przygotowanie Danych i Modele API w Keras

Zanim sprawdzimy wpływ hiperparametrów na naukę, musimy przygotować środowisko treningowe z dostarczonego notatnika. Pobieramy bazę MNIST (obrazy ręcznie pisanych cyfr od 0 do 9), zmieniamy ich kształt z kwadratów 28x28 pikseli na jeden płaski wymiar `(784,)` i normalizujemy, zabezpieczając system.

(x_train, y_train), (x_test, y_test) = mnist.load_data()

Pobranie do pamięci i klasyczny automatyczny podział zestawów na próbki "Testowe" i prężnie rzeźbiące "Treningowe".

x_train = x_train.reshape(-1, 784).astype("float32") / 255.0

Każdy z 60 tysięcy pikselowych obrazków "spłaszczamy" by pasowały w wejście jednowymiarowej warstwy gęstej (Dense). Dzielenie surowych barw typu RGB 255 redukuje prężność cyfr do skromnych limitów `0.0 - 1.0` eliminując kolosalne przesilenie w stymulowaniu gradientów (Gradient Exploding) już na pierwszym kroku.

Definicja Samej Architektury z wykorzystaniem dziedziczenia KLAS

W skrypcie wykorzystano klasyczną modę na Subclassing API modułów Keras, gdzie na stałe implementujemy inżynieryjną bazę keras.Model.

class MLPmodel(keras.Model):
def __init__(self, n_features, n_ukryta1=64, n_ukryta2=32, n_classes=10):
super(MLPmodel, self).__init__()

Deklaracja serca klasy (Konstruktor), w którym pod funkcją super() rozgłaszamy wewnętrzne mechanizmy integracyjne TensorFlow odpowiedzialne wręcz za cuda automatycznego wyliczania strat bez naszego autorskiego trudu wstecznego modelowania. Zostawiamy u siebie tylko szyny.

self.warstwa1 = layers.Dense(n_ukryta1, activation='relu')
self.wyjscie = layers.Dense(n_classes, activation='softmax')

Konstruujemy potężne fabryki pełno-połączonych warstw w ukrytych brzuchach maszyny załączając dla dynamiki łagodną aktywację 'relu'. Warstwa finalna dostaje zawsze wymiar zgodny z ilością klas, jakich szukamy (tutaj n_classes=10 cyfr rzymskich) z nałożonym zniekształceniem sumarycznym softmax. Softmax obdziela wszystkie 10 neuronów ułamkiem procentów (odpowiada to pewności do odgadnięcia cyfry od 0 do 9).

  def call(self, x):
    x = self.warstwa1(x)
    return self.wyjscie(x)

Metoda uderzeniowa 'Forward propagation' wskazująca ścieżkę wedle obiecanych definicji. Przekazuje nowo poznane dane `x` prosto do brzucha predykcji.

Współczynnik Uczenia
(Learning Rate - LR)

Nawet najlepsza architektura wymodelowana wyżej nie zdoła się optymalnie wyuczyć, jeśli jej "poprawki grawitacyjne" błądzące w pętlach trenowania będą niszcząco nakierowywane. Learning Rate (LR) zarządza fizyczną skalą wprowadzanych zmian po absolutnie każdym popełnionym błędzie.

for lr in [0.0001, 0.001, 0.01, 0.1]:
  model.compile(optimizer=keras.optimizers.Adam(learning_rate=lr),
               loss=keras.losses.SparseCategoricalCrossentropy())
  model.fit(x_train, y_train, epochs=20, batch_size=64)

Sadzamy nową sieć i kompilujemy ją - narzucając jej ujednoliconą funkcję straty SparseCategoricalCrossentropy, która zlicza odchylenia masowych klasyfikacji (gdzie prawda obiektywna jest ułamkiem 0 albo 1).

💡 Po ludzku: Modyfikacja Learning Rate determinuje gwałtowność zjawiska korekcji. Zbyt wysoki (np. 0.1) sprawi że sieć dosłownie przeskoczy dół optymalny i poleci w szalone regiony kosmicznego hałasu. Zbyt mały (np. 0.00001) spowoduje wielogodzinne dręczenie maszyny w schodzeniu do dolinki bez perspektyw a po drodze wpadnie do pierwszej lokalniejszej płycizny algorytmicznej, ugrzęźnie na szumach ("Local Minima") tracąc na stałe dynamikę.

Zbyt niski LR

Optymalny LR

Zbyt wysoki LR

Przy zbyt małym LR piłeczka powolutku schodzi na dół, nigdy nie docierając przez limity czasu. Przy zbyt wysokim odbija się chaotycznie po burtach aż wyskoczy poza błąd na gigantyczne pomyłki z nieskońśzoności.

Rozmiar paczki danych
(Batch Size)

Na stabilność decyzyjną szkolenia oraz pamięć komputera (VRAM) wpływa to, jak szeroką grupę obrazków wpuszczamy do oceny jednocześnie przed jakąkolwiek modyfikacyjną poprawką - robimy ujęcia zbiorowe i wrzucamy z nich uśredniony wniosek po wierszach strat optymalizacyjnej Gradient Descent. To właśnie ustalone jest w ujęciu Batch.

for bs in [16, 64, 256, 1024]:
history = model.fit(epochs=20, batch_size=bs)

Przekazując parametr batch_size opóźniamy częstotliwość podsumowań, z których czerpie aktualizator w procesach `Backward` (korekcji logiki). Poniżej użyliśmy na testy zarówno bardzo drżącą małą dawkę szesnastu prób do rzędów 1024 dających wygładzone (ale stępione percepcyjnie) spłaszczanie linii wykresów.

💡 Po ludzku: Wyobraź sobie grupę ludzi zgadującą wspólnie jak zbudować bezpieczny most inżynieryjny. Jeżeli po opinię pytasz raptem kilkanaście osób (mały batch), poprawka uwzględniająca ich osądy będzie szybka, ale wysoce szalona od specyfiki indywidualnej (chaotyczny szum). Jeśli zapytasz o opinię zgromadzony legion stutysięczny ludzi, uśredniony wynik stłamsi całe spektrum odchyłów (bardzo pewna, gładka nauka bez podskoków na szumie). Pamiętajmy jednak, że potężny batch kosztuje obciążenia wielkoskalowe dla maszyn (Karty GPU), a nierzadko - mityczny szum - potrafi usterkowo wyciągnąć program ze zmokniętej nieoptymalnej pułapki rynnowej po drodze do mety!

Interaktywna wariancja gęstości - Batch Size

Rozmiar 16: Trening maszynowy jest "głośny" i wysoce chaotyczny! Wykres stochastycznie skacze z gigantycznymi schodami, ponieważ poprawka nakładana jest na logikę na podstawie niepewnej opinii od garstki zaledwie szesnastu przykładów. Daje to jednak zjawisko pomocnego "szumu" ułatwiającego wyrwanie się z pułapek optymalizacji matematycznej.

Wybór Optymalizatora
(Algorytmu kroczącego)

Nawet przy najlepszym tempie możemy wspomóc obiekty dodatkami wyciągającymi z algorytmów analitycznych (heurystycznych). Optymalizatory dyktują strategię w jaką system przetwarza zebrane informacje strat.

optimizer=tf.keras.optimizers.Adam(learning_rate=...)

Klasyczne rozwiązanie SGD schodzi wyłącznie z prądem w stronę wektora błędu. Odnajdue się tam metoda obwarowana w silnik Adam (Adaptive Movement Estimation). Reaguje on modyfikując sobie uodparnianie tempa na każdy poszczególny węzeł na podstawie pędu z poprzednich skoków używając tzw. 'Momentum'.

💡 Po ludzku: Zwykłe schodzenie jest jak ślepiec stawiający kroki zawsze po równo tylko tam, gdzie czuje delikatny uskok podeszwą. Optymalizator 'Adam' to inteligentny biegacz zjazdowy: jak widzi równię z góry - przyśpiesza grawitacyjnie i łagodzi przed zakrętem by nie wypaść na wirażu, stale adaptując buty do wilgotności skały. Nie do pobicia w ogólnej statystyce na Deep Learningu.

Architektura Warstw i Ryzyko Przeuczenia
(Niesławny Overfitting)

Oprócz suwaków o krokach, mylnie stających na topologii, decydujemy też o samej wulgarnej, nieczystej strukturze liczby synaps powiązań sieciowych. Model posiadający raptem garstkę węzłów ukrytych potrafi odcyfrować tylko wielce banalne i trywialne kształty oraz zgrubne obramowawcze kontury dla wielomianów danych. Wspaniały geometryczny rozrost liczbowy skrzywdzić rykoszetem też może algorytm wbijając go w tzw. memoratyzację znienawidzonej szarej sfery, czyli patologicznego nauczenia się ślepych rzędów pamięci.

validation_split=0.2

Głębokie obwodnice w warstwach Dense potrafią ekstraktować skomplikowane i zintegrowane zagięcia wektorowe z pikseli. Jeśli jednak twój zestaw szkoleniowy ma marne tysiąc probówek (np. odciski łap psów), a ty nadałeś sztuczny węzeł inteligencji połączony fizycznie z 15 milionów neuronów - z dużą pasją maszyna pożre materiały całe, idealnie odkopując i zachowując wszystko, jednak... to zapamięci w logice po krawędzi blatu, tak jak ślepy prymus który zakuł matematykę ze skryptu wykutego dla jedynego zestawu i płacze na faktycznym teście nie potrafiąc zaadaptować procedur i ogólnego wzorca na nieznany, trochę szerszy przypadek w epoce u użytkowników po wdrożeniu do API produkcyjnego. To nazywamy złem zwanym z wielką siłą Overfitting (Oraz na to dedykuje się parametryzacja zwana z odgórza Dropout ograniczająca i wybijająca maszynowy sen na sprawdzaniu walidatorowym - odłączna z flag validation_split obcych rzędów logów wykreślanych po stymulantach i klatkach badawczych).

⚙️ Symulator Treningowy + Kosmiczny Przebieg Analizy

Dopasuj hiperparametry w locie i wciśnij Rozpocznij Trening Sieci, aby obserwować na żywo logi konsolowe wyliczane obok symulacji jak to bywa w naturalnym notatniku Jupyter uruchamianego w Keras API!

Współczynnik Uczenia (LR): 0.001

0.00010.1 (Max)

Pojemność Paczki (Batches): 64

161024

>_ Keras Training Logs

                                    -- Oczekiwanie na inicjację Model.fit() --

Analiza Wpływu Hiperparametrów

Przygotowanie Danych i Modele API w Keras

Definicja Samej Architektury z wykorzystaniem dziedziczenia KLAS

Współczynnik Uczenia
(Learning Rate - LR)

Rozmiar paczki danych
(Batch Size)

Interaktywna wariancja gęstości - Batch Size

Wybór Optymalizatora
(Algorytmu kroczącego)

Architektura Warstw i Ryzyko Przeuczenia
(Niesławny Overfitting)

Quiz końcowy

Przygotowanie Danych i Modele API w Keras

Definicja Samej Architektury z wykorzystaniem dziedziczenia KLAS

Współczynnik Uczenia (Learning Rate - LR)

Rozmiar paczki danych (Batch Size)

Interaktywna wariancja gęstości - Batch Size

Wybór Optymalizatora (Algorytmu kroczącego)

Architektura Warstw i Ryzyko Przeuczenia (Niesławny Overfitting)

Quiz końcowy

Współczynnik Uczenia
(Learning Rate - LR)

Rozmiar paczki danych
(Batch Size)

Wybór Optymalizatora
(Algorytmu kroczącego)

Architektura Warstw i Ryzyko Przeuczenia
(Niesławny Overfitting)