Learning rate (miera učenia)

Čo je learning rate?

Learning rate (v slovenskom preklade miera učenia) je hodnota, ktorá určuje, aký veľký krok model urobí pri každej aktualizácii váh počas učenia. Je to jeden z kľúčových hyperparametrov, pretože priamo ovplyvňuje rýchlosť aj kvalitu trénovania modelu.​

Ako learning rate ovplyvňuje trénovanie?

Pri príliš vysokej miere učenia model „skáče“ po chybovej ploche, môže optimálne riešenie preskakovať a trénovanie sa stáva nestabilným. Pri príliš nízkej hodnote sa model síce správa stabilne, ale učí sa veľmi pomaly a môže uviaznuť v nevýhodnom lokálnom minime.​

Súvis s optimalizačnými algoritmami

Optimalizačné algoritmy ako SGD alebo Adam používajú learning rate na výpočet toho, o koľko sa váhy posunú v smere vypočítaného gradientu.

Výsledný krok je daný kombináciou smeru (gradient) a veľkosti kroku (learning rate), takže správne nastavenie tejto hodnoty je zásadné pre rýchlu a spoľahlivú konvergenciu modelu.

Typy prístupov k nastaveniu miery učenia

Konštantná miera učenia zostáva rovnaká počas celého trénovania. Tento prístup je jednoduchý, ale nemusí byť optimálny pre všetky fázy učenia.

​Pri learning rate scheduling sa táto hodnota mení v čase, aby sa spojilo rýchle učenie na začiatku so stabilnou konvergenciou na konci. Používajú sa napríklad schémy ako step decay (zníženie po určitom počte epoch), exponenciálny pokles alebo „warm‑up“, kde sa learning rate na začiatku postupne zvyšuje, aby sa tréning rozbehol stabilnejšie.

Vieš, že
Vieš, že…

…typické hodnoty learning rate sa pohybujú v rozmedzí 0,0001 až 0,1? Voľba konkrétnej hodnoty závisí od architektúry modelu, veľkosti datasetu a použitého optimalizačného algoritmu.

Praktické aspekty nastavenia learning rate

Hľadanie vhodnej miery učenia je často iteratívny proces. Technika learning rate finder postupne zvyšuje hodnotu a sleduje stratu modelu, čo pomáha identifikovať vhodný rozsah.

Pri fine-tuningu predtrénovaných modelov sa preto často používa nižšia miera učenia pre „zamrznuté“ alebo len jemne dolaďované vrstvy a vyššia pre novo pridanú hlavu, napríklad pri úprave jazykového modelu na špecifickú doménu, ako je medicínska dokumentácia.

Nesprávne nastavenie learning rate patrí medzi časté príčiny zlyhania trénovania. Pri príliš vysokej hodnote môže presnosť kolísať, ak je priveľmi nízka, model sotva prekoná náhodné hádanie.

Zdroje a odkazy

Použité zdroje:

  • PyTorch Documentation – Learning Rate Scheduling: https://pytorch.org/docs/stable/optim.html

Odporúčané zdroje:

  • TensorFlow Documentation – Optimizers: https://tensorflow.org

Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.