Pre-training (predtrénovanie)
Čo je pre-training?
Pre-training (v slovenskom preklade predtrénovanie) je počiatočná fáza trénovania modelov strojového učenia, pri ktorej sa model učí všeobecné vzory a reprezentácie z veľkého objemu dát. Tento proces prebieha ešte pred špecializovaným trénovaním na konkrétnu úlohu. Model počas predtrénovania získava základné „porozumenie“ štruktúre dát – či už ide o jazyk, obrazy alebo iné typy vstupov.
Ako prebieha pre-training?
Predtrénovanie zvyčajne využíva metódy učenia bez učiteľa (unsupervised learning) alebo samoučenia (self-supervised learning). Model sa trénuje na rozsiahlych datasetoch bez explicitných anotácií, napríklad jazykový model predpovedá nasledujúce slovo v texte alebo dopĺňa maskované tokeny.
Pri veľkých jazykových modeloch (LLM) predtrénovanie zahŕňa spracovanie miliárd textových dokumentov z internetu, kníh a ďalších zdrojov. Model sa učí štatistické vzťahy medzi slovami, gramatické štruktúry a faktické informácie obsiahnuté v tréningových dátach. Tento proces vyžaduje značné výpočtové zdroje a môže trvať týždne až mesiace na špecializovanom hardvéri.
Vzťah pre-trainingu a transfer learningu
Predtrénovanie je základom pre transfer learning – prístup, pri ktorom sa znalosti naučené na jednej úlohe prenášajú na inú. Predtrénovaný model obsahuje všeobecné reprezentácie, ktoré možno následne doladiť (fine-tuning) pre špecifické aplikácie s výrazne menším množstvom tréningových dát.
Tento prístup výrazne znižuje nároky na dáta a výpočtový čas pri vývoji špecializovaných modelov. Organizácia nemusí trénovať model od začiatku. Môže využiť predtrénovaný základ a prispôsobiť ho vlastným potrebám.
…pôvodný model GPT-3 bol predtrénovaný na približne 45 terabajtoch textových dát, čo zodpovedá stovkám miliárd slov?
Typy predtrénovania
V závislosti od architektúry a cieľovej úlohy existuje niekoľko prístupov k predtrénovaniu:
- Kauzálne jazykové modelovanie – model predpovedá nasledujúci token na základe predchádzajúceho kontextu (GPT architektúra)
- Maskované jazykové modelovanie – model dopĺňa náhodne maskované tokeny v texte (BERT architektúra)
- Kontrastívne učenie – model sa učí rozlišovať podobné a odlišné príklady (využívané v počítačovom videní)
Každý prístup má svoje výhody pre rôzne úlohy. Kauzálne modelovanie je vhodné pre generovanie textu, maskované modelovanie lepšie funguje pri klasifikácii a analýze.
Limitácie predtrénovania
Predtrénované modely môžu obsahovať zaujatosti prítomné v tréningových dátach. Kvalita výsledného modelu priamo závisí od kvality a reprezentatívnosti použitých datasetov. Výpočtové nároky na predtrénovanie veľkých modelov sú značné, čo limituje prístup k tejto technológii pre menšie organizácie.
Zdroje a odkazy
Použité zdroje:
- Google AI Blog – BERT: Pre-training of Deep Bidirectional Transformers: https://ai.google/research
- OpenAI Research – Language Models are Few-Shot Learners: https://openai.com/research
Odporúčané zdroje:
- Hugging Face Documentation – Transfer Learning and Pre-trained Models: https://huggingface.co
Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.