Pre-training (predtrénovanie)

Čo je pre-training?

Pre-training (v slovenskom preklade predtrénovanie) je počiatočná fáza trénovania modelov strojového učenia, pri ktorej sa model učí všeobecné vzory a reprezentácie z veľkého objemu dát. Tento proces prebieha ešte pred špecializovaným trénovaním na konkrétnu úlohu. Model počas predtrénovania získava základné „porozumenie“ štruktúre dát – či už ide o jazyk, obrazy alebo iné typy vstupov.

Ako prebieha pre-training?

Predtrénovanie zvyčajne využíva metódy učenia bez učiteľa (unsupervised learning) alebo samoučenia (self-supervised learning). Model sa trénuje na rozsiahlych datasetoch bez explicitných anotácií, napríklad jazykový model predpovedá nasledujúce slovo v texte alebo dopĺňa maskované tokeny.

Pri veľkých jazykových modeloch (LLM) predtrénovanie zahŕňa spracovanie miliárd textových dokumentov z internetu, kníh a ďalších zdrojov. Model sa učí štatistické vzťahy medzi slovami, gramatické štruktúry a faktické informácie obsiahnuté v tréningových dátach. Tento proces vyžaduje značné výpočtové zdroje a môže trvať týždne až mesiace na špecializovanom hardvéri.

Vzťah pre-trainingu a transfer learningu

Predtrénovanie je základom pre transfer learning – prístup, pri ktorom sa znalosti naučené na jednej úlohe prenášajú na inú. Predtrénovaný model obsahuje všeobecné reprezentácie, ktoré možno následne doladiť (fine-tuning) pre špecifické aplikácie s výrazne menším množstvom tréningových dát.

Tento prístup výrazne znižuje nároky na dáta a výpočtový čas pri vývoji špecializovaných modelov. Organizácia nemusí trénovať model od začiatku. Môže využiť predtrénovaný základ a prispôsobiť ho vlastným potrebám.

Vieš, že
Vieš, že…

…pôvodný model GPT-3 bol predtrénovaný na približne 45 terabajtoch textových dát, čo zodpovedá stovkám miliárd slov?

Typy predtrénovania

V závislosti od architektúry a cieľovej úlohy existuje niekoľko prístupov k predtrénovaniu:

  • Kauzálne jazykové modelovanie – model predpovedá nasledujúci token na základe predchádzajúceho kontextu (GPT architektúra)
  • Maskované jazykové modelovanie – model dopĺňa náhodne maskované tokeny v texte (BERT architektúra)
  • Kontrastívne učenie – model sa učí rozlišovať podobné a odlišné príklady (využívané v počítačovom videní)

Každý prístup má svoje výhody pre rôzne úlohy. Kauzálne modelovanie je vhodné pre generovanie textu, maskované modelovanie lepšie funguje pri klasifikácii a analýze.

Limitácie predtrénovania

Predtrénované modely môžu obsahovať zaujatosti prítomné v tréningových dátach. Kvalita výsledného modelu priamo závisí od kvality a reprezentatívnosti použitých datasetov. Výpočtové nároky na predtrénovanie veľkých modelov sú značné, čo limituje prístup k tejto technológii pre menšie organizácie.

Zdroje a odkazy

Použité zdroje:

  • Google AI Blog – BERT: Pre-training of Deep Bidirectional Transformers: https://ai.google/research
  • OpenAI Research – Language Models are Few-Shot Learners: https://openai.com/research

Odporúčané zdroje:

  • Hugging Face Documentation – Transfer Learning and Pre-trained Models: https://huggingface.co

Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.